只是收集很多用户数据,用机器处理,为什么整天都这么吵呢? 传统行业的数据收集和分析缓慢,在互联网时代尤其是移动互联网时代,数据收集和分析只会更加明智。
真是这样吗?今天让我们来看看两位业内人士的深入分析。
01大数据的商业价值
大数据是近年来新成为话题的词语,人们对大数据的理解还不够充分,数据量大的是大数据,或者数字大的也是大数据,实际上这些只是属于统计范畴,与大数据没有关系。
大数据实际上是由两部分构成的。 部分是大容量计算的存储能力,部分是数据建模算法。
大数据被认为是更快、更智能的处理技术的人,仅仅认识到大数据的大容量运算存储能力,该部分只认识到量的变化。
对于消费者市场,大数据的目标是对每个消费者有明确的认知和追踪。
你的年龄、身高、家庭背景、收入水平、信用水平等表面客观信息自不必说,现在在哪里,喜欢什么颜色,喜欢什么风格,想要什么就可以收集分析。 然后向您所看到的视频站点、画笔的APP以及所有这些界面提供信息,引起注意。
随着这项技术的进步,也可以预先预知想要购买的东西,提前投递。 想象一下。 我想买东西,点了二十分钟左右就到家门口了。 因为你早就预测了你什么时候想要什么,所以预测了提前几天发货到你的住宅的收货所。
这样正确的服务,后来对消费者来说当然不记得它是多么伟大。 正如过去的工业革命一样,只有当事人经历了这个时代的时代的创造者们才对这些创造充满热情。 我们马上就能得到的电和电有什么惊喜吗?
传统的数据行业缺乏足够的数据检索能力,缺乏足够的数据加工能力。 包括以前开始预测总统选举的公司在内,他们的抽样有限,例如发送问卷,问卷这样的抽样很难再现真相,基于传统的抽样统计方法。 另外,数据处理能力也是有限的。
相反,大数据的采样是不会撒谎的。 点击、阅览、地理信息等一切行为都发生在眼睑下。 这是大数据的第一个“大”,维度很大。
同时,数据采样数亿人口复盖全天候。 这是大数据的第二个“大”,数量很多。 对于一组传统样本,大数据可称为整个样本。 只有这两个“大”才能带来数据质量的变化。
让我们看看数据加工。 传统的加工,恐怕很多人都依赖Excel吧! 我们可以用一天的数据爆炸数万台你家的电脑硬盘。 关于计算,请想象一下如何为此数量级别的数据矩阵实现最简单的矩阵分解。 这是机器的能力。
在人方面,现在传统上有这些统计方向的人经常说“啊,现在在演算法”。 的确,算法是人与机合作的交流方式,只有与机深入合作,才能获得更高的生产力。
在消费者眼中,这一切可能并不是那么厉害。 不仅仅是马上就到,也不是很多方便的事情,怎么也不是同样的工作。 但这对生意来说是惊人的。
以前你卖衣服的,你的周转库存和滞留库存大概只吃了一半利润,如果有大的数据支持,你的库存几乎可以忽略。 过去设计的东西,如果有你设计的作品在市场上很可能不被认可的精密杀人器,消费者的数据会告诉你他们想要什么。 你的设计师可以添花。 真正的设计师是消费者自己。
以前你做市场营销,是投入大量金钱制定市场营销方案的结果,如果有这个精密的杀手,市场营销的投资风险会很低。
大数据对正确业务的影响是各方面的。 这是新时代向旧时代的淘汰。 不仅仅是商业,还有很多其他用途,深刻改变世界。 例如个人招聘、医疗行业、能源行业、道路交通等。 太多的话,这些会大大改变世界的结构。
02技术角度分析大数据
我有20个整数,全部放入存储器,呼叫sort,结束。
我有2GB左右的整数,全部都在内存里……恩恩,如果机器没有那么坏的话,就勉强完成吧。
我有大约20GB的整数。 没错。 在您家的PC中插入多少个8GB内存?
那么,我现在有200GB左右的整数……看你怎么装内存,哈哈哈哈!
吓了我一跳,你写什么外部排序? 写下来! It's ONLY the beginning! 很多人都不会写内存中的速记~
200GB是什么样的大数据? 苍老师的合集也不停地咳嗽…
OK,显然我们注意到一台机器装不下来。 怎么办? 找几台机器吧。 找几台机器意味着什么?分散计算不知道,分散计算也不知道大的数据! 什么? 什么?
是的,现在有200GB的整数。 排序吧。 嗯,给你十台机器吧。
1 )该200GB的整数是如何分配的?
2 )这10台机器之间是怎样通信的? 没错。 我不只是一个洞。 你为了写外部的排行榜,我打了个洞,你得上网编程。
3 )假设各设备的数据完全排列,能多快合并各设备的排序结果?
4 )如何设计有效的merge逻辑以减少10台计算机之间的网络IO?
5 )请不要认为10台机器不需要维护。 如果一台机器在重新排序时挂起,该怎么办?具体来说,他在挂起之前是否响应过来自其他设备的请求? 他挂起前自己的任务完成了多少? 如果这台机器挂起的时候正在和旁边的机器传输数据呢
6 )谁监听这十台机器的健康? 你能知道其他设备是怎么挂起的吗? 如果连接超时,您如何知道网络是拥塞还是目标计算机关机?
7 )如果一台设备真的发生故障而无法恢复,或者邻近的黄牛袭击了魔兽,带走了一台(群集可能被升级,群集中的节点可能会被暂时移除),那么该设备的20g数据如何分成其馀的9台?
如果数据不是200GB,而是2TB和2 Pb……
这么大的数据,这么大的集群,一次挂起的机器数量可能很多。 如果此群集用于存储(例如百度云),如何确保用户数据不会丢失?
2 )如果此集群用于离线计算,如何设计调度器以提高每台设备的资源利用率,减少集群内的网络IO,尽可能提高每台设备的响应速度?
3 )希望集群是可扩展的。 最佳框架支持通过简单地增加计算机数量来扩展群集计算和记忆能力。 这个框架是怎么设计的?
提案主题有时间知道mapreduce、hadoop、yarn、mpi、vfs等内容。
“传统行业的数据收集和分析缓慢,在互联网时代,特别是移动互联网时代,数据收集和分析只是变得更加明智而已。”
只有主题这么说是因为主题作为局外人,只能看到这些表面的最直观的现象。 简单的“数据分析变得聪明”背景,其实是无数人付出的勤奋、创造力、勇敢、困难!
马云父说:“未来是DT时代,大数据是最重要的资产。
从今后的3年到5年,中国需要180万人的数据人才,现在只有大约30万人。 到2020年为止,企业基于大数据计算分析了存储、数据挖掘、数据分析等数据产业的发展,我国需要更多的数据人才。