仓库_大数据时代中的数据仓库技术

仓库

大数据背景

众所周知,现在是数据爆炸的时代,大数据背景下的数据管理是各企业要重点考虑的问题。 比如,像金融机构和通信运营商这样的“传统”行业每天应该处理的数据量已经变得巨大,中小规模的互联网公司已经存活了数千万天,所以圣诞节、蚂蚁这样的互联网巨头更是如此。

传统行业的数据管理

以通信运营商为例,省级通信运营商多年前积累的信息量已经达到数PB,在数据爆炸的时代,我们可以通过移动互联网随时随地进行数据爆炸,数据爆炸的程度可以用指数进行模型化。

与网络企业相比,这些传统行业企业的数据量特征是数据价值密度大,数据结构化。 这与网络企业的商业场景有所不同。 也就是说,在使用Hadoop等大数据的开源项目中,不能得到良好的存储效果。

数据仓库现状

数据仓库和数据库的区别众所周知,一个以数据分析为主,另一个以数据删改为主。 数据仓库是以数据分析为中心的,是否没有足够的数据量? 在我们现在的时代,提到数据仓库,自然会与大型数据联系起来,否则就被视为没有价值的数据仓库。

既然企业的数据管理这么难,数据管理是像阿里巴巴、腾讯这样的大型互联网公司,还是像工行、移动、联通这样拥有大量数据的500家企业的专利?

答案可以说是,也可以说不是。

“是”的理由是

如前所述,传统行业的数据仓库以结构化数据查询为主,因此可以进行BI、报告生成、数据挖掘等相关操作。 我认为实现结构化数据仓库远比实现非结构化数据仓库困难。 在开源产品中,开源的结构化数据仓库(如greenplum )主要用于非结构化数据,只能说是“广告”开源产品。 结果greenplum通过销售数据仓库服务得以生存。 这些商业数据仓库价格不高,以teradata数据仓库为例,每年工商银行支付的费用必须以亿为单位计算。

价格高意味着结构化数据仓库中的许多传统公司都无法使用,但是没有足够的数据量。 因为这些企业知道很多好东西都在他们手里,实际上不能用,所以这个回答是“是”。

另一方面,也可以说“不”

数据爆炸时代,每个规模的公司都存储了一定量的数据,“大数据、小分析”是现在提到的概念。 各企业要合理规划未来,掌握客观规律,不投入科技是不可能的。 在这样的公司里,最大的困难是谁都不能使用数据仓库。 但是,随着云计算的兴起,数据仓库也已经云化,技术上较好的云上的数据仓库有蚂蚁云和华为云两种,其他技术上客观分析都不如两者的性能。

数据仓库体系结构

目前,数据仓库体系结构主要分为两类: mpp体系结构和nosql格式的开源产品。

“Nosql退场,newsql代表未来”这个词不为人所知。 然而,newsql是一个新概念,newsql采用的大多数架构都是mpp架构。 mpp指的是大规模的并行处理,mpp架构数据库不仅支持传统的数据库acid,还支持集群的线性扩展。 Nosql的最大不足在于它不支持或不支持事务。

与nosql数据库相比,mpp支持事务、支持sql词汇记录、支持诸如表关联( join )的复杂查询、以及技术复杂性远高于nosql。 nosql的优点是可扩展性很高。 由于mpp体系结构线性扩展后需要重新分配数据,因此,如果其中的技术复杂且有很多感兴趣的地方,请在后面详细说明。

OLAP公司

说到数据仓库,OLTP是表示在线上的大规模的数据处理的概念,OLTP以及表示进行数据分析的意思,而OLTP的概念。 OLTP着重于同时性,着重于CURD。 例如,网上付款、交易场景。 OLAP侧重分析、查询和数据挖掘。 就数据量而言,OLAP的数据量比OLAP系统要多得多,OLAP支持数据库诸如数据仓库,OLAP支持数据库诸如Oracle。

无论是当前的数据仓库还是数据库,只要满足高可用性场景,就必须考虑分散这一概念。

数据库的分布式系统

OLAP和OLTP是分布式系统,一个是分布式数据仓库,另一个是分布式数据库。 通过分布式保障高可用性,当然也面临着一致性问题。

在OLAP数据仓库系统中,他说是用来分析数据的。 在许多场景中,特定要求秒级响应。 这个要求很高,感兴趣的是能知道SQL on hadoop的工具Hive :上厕所的工夫不够。

这需要分布式架构,同时OLAP需要尽可能地解析SQL语句,需要支持复杂的业务,如多表连接,甚至事情,mpp架构很有用,nosql变弱。 这在同样的HBase等开源项目中不能实现,但后者仍然是NoSQL,高扩展性是生存的必杀技。 这是因为mpp线性扩展需要数据重新分布,并且为了保证散列映射需要时间。

总结

介绍了数据仓库的体系结构级技术。 这里包括复杂的技术,尤其是mpp体系结构。 国内专门研究mpp框架的厂商很少,大型蚂蚁和华为正在研究,腾讯、百度似乎也是团队在做。 与mpp架构相比,许多公司可以选择开源软件来实现自己的数据仓库,通常被广泛使用的是hbase,这主要是因为互联网场景存储了结构化较弱的数据,实际上就像是kv结构。 但是,在像以往制造商那样的数据价值密度高的商业场景中,必须考虑使用teradata等专业的数据仓库。

大家都在看

相关专题