摘要:从大数据架构的角度全面分析了大数据技术和算法,探讨了大数据的发展和趋势,全面介绍了大数据的相关技术、算法和一些应用场景,以帮助读者培养大数据的技术选择和系统架构能力。
它不仅对大数据的相关技术和算法进行了系统的分析和描述,梳理了大数据的技术分类,如基础设施支持、大数据收集、大数据存储、大数据处理、大数据显示和交互,还整合了大数据行业的最新技术进步和大型互联网公司的大数据架构实践,力求为读者提供大数据的全景图。
主要内容:
大数据技术的概述和发展历程:详细介绍了大数据技术近年来的起源和发展趋势。
大数据的技术分类:包括基础设施支持、大数据采集、大数据存储、大数据处理、大数据显示和交互。
大数据产业的最新技术进步:如谷歌的新三驾马车、星火系统计算平台、深度学习、可穿戴计算等。
大数据的发展趋势:走向实时、无处不在和智能化。
大型互联网公司的大数据架构实践:包括腾讯、淘宝、脸书、推特等。
目录给你一个简单的介绍:
大数据的行业价值
在过去的几年里,大数据引起了全社会的关注,发展迅速,几乎每个行业都可以看到大数据应用的影子。大数据的应用范围越来越广,应用的行业越来越多。我们几乎每天都能看到大数据的一些新应用。大数据的价值也体现在各个方面。目前,大数据的应用领域主要是互联网、金融、医疗、教育、政府等行业,应用环境也各不相同。以下是大数据的一些典型应用场景。
1.用户行为分析、数据模型建立和预测
大数据在用户行为分析和预测中的应用最为突出。通过收集和分析用户社交网站的行为数据、浏览器的日志信息和传感器的数据,企业可以获得用户的行为习惯。通过建立数据模型,他们可以预测用户的下一次行走。
在用户行为分析方面,最经典的案例应该是沃尔玛将尿布和啤酒放在一起的销售策略。沃尔玛对易科的购物习惯进行关联规则分析,从中找出顾客会经常购买哪些商品。沃尔玛使用数据挖掘工具分析数据仓库中存储的所有店铺的交易数据,得出啤酒是与尿布一起购买的最常见商品的结论。沃尔玛把尿布和啤酒放在所有商店里。结果,尿布和啤酒的销量都增加了。
另一个著名的例子是目标怀孕预测。他们分析了商品数据库中的数万种商品和女性顾客的商品购买记录,挖掘出25种与怀孕高度相关的商品,并产生了“怀孕预测”指数,可以准确预测顾客何时想要孩子,计算孕妇的预期分娩日期等,从而提前向女性推荐相关产品。
在用户行为预测方面,也有许多成功的案例。例如,美国统计学家内特·西尔弗(Nate Silver)建立了一个统计模型,成功预测了2012年美国大选的结果。通过他的预测,我们可以看到奥巴马有431种获胜方式,而罗姆尼有76种,奥巴马总统连任的机会是86.3%。在其他行业,电信可以通过大数据预测用户流失,因此可以采取相应措施提前留住客户:汽车保险行业可以了解客户的驱动水平和需求,并为客户推荐合适的保险。大数据对于当代企业更好运营的价值是不言而喻的。
2.改善企业资产管理,优化企业业务流程
大数据还可以帮助企业改善资产管理和优化业务流程。企业可以使用实时数据来实现预测性维护,减少故障,并促进产品和服务开发。例如,在运输和物流领域,大数据最广泛的应用是供应链和配送路线的优化。通过将传感器数据与社交媒体、网络搜索和天气预报数据相结合,可以挖掘出有价值的信息。使用地理位置和射频识别来跟踪货物和运输车辆,并使用实时交通路线数据来制定更优化的路线。
不间断电源快递有效利用地理位置数据。为了使总部能够在车辆晚点时跟踪车辆位置并防止发动机故障,其卡车配备了传感器、无线适配器和全球定位系统。同时,这些设备也便于公司监督、管理员工和优化驾驶路线。不间断电源根据过去的经验为卡车定制了最佳路线。2011年,不间断电源司机少跑了近4828万公里。
敦豪是世界著名的邮政和物流公司。它是传统行业的企业,但在移动互联网和大数据浪潮中并不落后。在瑞典,一款以众包模式交付商品的移动应用“我的方式”(MyWays)已经推出,人们可以通过该应用注册在其移动路线附近交付包裹并获得报酬。此外,敦豪还应用大数据管理物流风险,从而为客户提供更好的服务。
3.大数据服务智能城市和智能交通
智慧城市是当前中国城市化改革的重点,大数据技术是实现智慧城市的核心支撑技术。智慧城市(Smart city)是利用信息和通信技术来感知、分析和整合城市运营核心系统的各种关键信息,从而智能应对包括政务、民生、社会管理和企业发展在内的各种需求。
其本质是利用先进的信息技术实现城市的智能化管理和运营,从而为城市人民创造更美好的生活,促进城市和谐可持续发展。目前,在国内外,大数据智能城市的新应用每天都在出现。我们选择了几个有代表性的案例。
随着智能电网的提出,智能电表越来越受欢迎。目前全国至少有1亿智能电表在使用,这不仅极大地方便了普通电力用户,也使电力公司能够收集大量的用电量数据。这些海量数据在积累过程中逐渐给用电信息采集系统带来存储和计算压力。此外,随着业务的不断深入,智能电表经历了多次升级,收集的物品数量翻了几倍,收集频率也逐渐从每天一次升级到每15分钟(96天)一次。
对于一家拥有2000多万电力用户的省级公司来说,一天存储的数据量接近20亿倍,加上实时统计分析的要求,原有的基于传统关系数据库架构的系统已经无法支持。在这种情况下,基于清华大数据处理中心基于Hadoop的HBase解决方案的省级公司存储电力数据并查询结果,并使用Hive进行相关统计分析。在对业务进行排序后,选择了三个计算场景和一个查询场景进行尝试。通过对实际业务数据的计算和比较,三种计算场景所需的时间比现有系统快10-20倍,查询场景的响应时间缩短了两个数量级,而整个集群的硬件成本仅为现有系统的1/6,并且还具有优秀的横向扩展能力。
法国里昂和国际商用机器公司的研究人员联合开发了一个缓解道路拥堵的系统方案。IBM为里昂开发了一个名为决策支持系统优化器(Decision Support System Optimizer)的系统,该系统可以基于实时交通状况报告来检测和预测交通拥堵。当交通管理员发现某处即将发生交通堵塞时,他们可以及时调整交通灯,使交通流量以最高效率运行。该系统也适用于紧急情况,例如帮助救护车尽快到达医院。此外,随着运行时间的积累,系统可以“学习”过去成功的处置方案,并将其应用于未来的预测。
SpotHero是一个用于预留停车位的移动应用程序。其网站和移动应用可以更好地解决司机找不到停车位的问题。SpotHero可以实时跟踪停车位数据的变化。打开SpotHero将显示附近可用停车位的公交车和价格,提供导航服务,并可以使用预付费来占用未使用的停车位。目前,华盛顿、纽约、芝加哥、巴尔的摩、波士顿、密尔沃基和纽瓦克等七个城市的停车位可以实时监控。
总共有8个典型的应用场景,上面介绍了3个应用场景。
大数据基础支持-数据中心和云计算
大数据技术正在改变当前的计算机操作模式和世界。它可以处理几乎所有种类的海量数据,无论是微博、文章、电子邮件、文档、音频、视频还是其他形式的数据。它工作速度非常快,可以达到实时。大数据的核心基础是数据中心的大规模计算、存储和网络资源,以及负责管理、调度和监控这些资源的云计算平台。云计算使用户能够根据其业务需求获得相应的计算能力、存储空和信息服务,并将计算任务分配到由大量服务器组成的资源池中。云计算及其技术使人们能够以低成本获得大量的计算和存储,而云计算分布式体系结构能够很好地支持大数据的存储和处理需求。这种低成本的硬件+低成本的软件+低成本的操作和维护更加经济实用,为大数据的处理和利用提供了强有力的支持。
本章将重点介绍数据中心和云计算的概念、大数据和云计算的关系、云资源调度和管理、OpenStack等。云存储系统
云存储不是一种设备,而是一种服务。具体来说,它将数据存储和访问视为一项服务,并通过网络向用户提供。云计算提供计算能力,相应地云存储提供存储能力。
云存储侧重于为用户提供基于网络的在线存储服务,并通过扩展降低用户的存储成本。用户不需要考虑存储容量、存储设备类型、数据存储位置以及诸如数据完整性保护和灾难恢复备份等琐碎的底层技术细节。他们可以按需从云存储提供商那里获得几乎无限的存储空和企业级服务质量。本章主要介绍云存储系统,从云存储的基本概念入手,介绍云存储涉及的关键技术,并对云存储系统进行分类描述。
Hadoop和MapReduce
本章将简要介绍Hadoop分布式生态系统的组成部分,从Hadoop的底层文件系统HDFS开始,然后介绍Hadoop的结构化存储系统HBase,重点介绍Hadoop任务调度框架MapReduce的原理,并给出一个具体的编程示例,对MapReduce 2.0进行简单的介绍和比较。由于篇幅有限,第6.3节简要介绍了Hadoop生态系统的几个重要组成部分的功能。
最后,介绍了Hadoop平台的应用案例。
暴雨流量计算系统
Hadoop和其他大型数据解决方案解决了当今大部分海量数据处理需求,如网页检索、机器翻译、分布式计算、广告等。然而,Hadoop对一些需要高实时性能的数据处理系统无能为力。对实时交互处理的需求产生了大量的实时计算系统,根据数据流的特性,这些系统可以被称为流式计算系统。本节主要介绍流量计算的基本概念,并以典型的流量计算系统Storm为例深入分析流量计算系统的特点。
SQL、nosql .和NewSQL
腾讯大数据平台淘宝的总体架构背景介绍
淘宝(taobao.com)目前拥有近5亿注册用户,每天有6000多万普通访客,每天有8亿多在线产品,平均每分钟销售48000件产品。截至2011年底,淘宝的日营业额达到43.8亿元,创造了278万个直接和充分的就业机会。随着淘宝网的扩张和用户数量的增加,淘宝网也从单一的C2C在线市场转变为包括C2C、团购、分销、拍卖等电子商务模式在内的综合零售商圈。目前,它已经成为全球电子商务交易平台之一,因此在架构上面临着大量高性能问题。
整体结构
淘宝数据平台架构图如图所示。
基于阶梯的淘宝数据平台架构图紧随其后的是脸书、推特、网飞等企业的大数据架构,由于篇幅较长,这里不再一一介绍。因此,需要这种“大数据架构——大数据技术和算法分析”的合作伙伴可以转发这篇文章,以关注小编辑,并从私人信件和小编辑那里“学习”以获得访问权限。
能够成功的人绝不能是偶然的。当你成功时,同一个班的许多人会和你打交道。和更多的人打交道后,你的知识会越来越广。
不要为了阅读而阅读,慢慢咀嚼,享受知识的乐趣。
你可以更成功!