让普通的“人工”与先进的“智能”一起玩——戴金泉《数据科学50人》


金权

作者|陈静

地图|詹库海洛

金奖,英特尔高级首席工程师兼大数据技术全球首席技术官,负责领导英特尔高级大数据分析全球工程团队的研发工作。他带领团队开发了用于大数据分析和人工智能的分布式深度学习库BigDL和分析动物园平台,并致力于促进人工智能技术的普及。

“如何推广和应用最先进的研究和技术,发挥它们的影响,是我最重要的事情。””戴金泉这样谈论他的技术观点

戴金全是英特尔的高级总工程师和大数据技术全球首席技术官。他负责领导英特尔全球工程团队(位于硅谷和上海)研究和开发高级大数据分析(包括分布式机器学习和深度学习)

何带领团队开发了基于Apache Spark框架的分布式深度学习库BigDL。在此基础上,他建立了分析动物园,一个大数据分析和人工智能的平台,致力于普及人工智能技术,使人工智能技术更接近公众。


▍奖学金开辟了技术探索之路

从学生时代起,戴金泉就对计算机科学的综合体系有了深刻的认识。他的本科和研究生阶段都致力于计算机科学。戴金泉对自己热爱的学科有自己独特的理解。他认为计算机科学是一个综合系统,包括程序设计、微积分、线性代数、离散数学等知识,而计算机系统是其中非常重要的一部分。< br>

"计算机理论经常涉及计算复杂性问题,即通过一些数学方法理解各种计算机的算法设计,这类似于数据科学所要求的各种技术的综合应用。”戴金泉说道< br>

他认为数据科学是许多不同领域的交叉,结合了计算机科学、数学、概率和统计学,而计算机科学也是一个相对全面的系统,因此成为数据科学的一个非常重要的部分同时,他认为数据科学在某种意义上是一门应用科学,专注于解决问题。数据科学家需要综合能力来将不同的技术应用于特定的问题。

金权

(图片说明:英特尔高级首席工程师和全球大数据技术首席技术官金奖获得者)< br>

由于杰出的成就,金奖获得者获得了复旦大学本科期间的英特尔奖学金英特尔奖学金成立于1998年,旨在鼓励大学生在信息科学和工程技术的前沿进行创新。它在行业和他们的研究中有很大的影响。< br>

“因为我很幸运获得了英特尔奖学金,所以我对英特尔有着深厚的感情“< br>

英特尔奖学金在戴金泉的心中播下了技术梦想的种子,激励他在技术道路上不断探索,也影响了他未来的职业道路

2年7月,他加入英特尔,从新加坡国立大学毕业后成为一名软件工程师在谈到加入英特尔的原因时,戴金泉表示:“英特尔在中国设立的研发机构可以进行大量核心技术的研发,也有许多特别优秀的技术人员可以引领全球技术发展。对我来说,这是一个非常有吸引力的地方。”当然,我以前的奖学金经历让我对英特尔非常感兴趣。“

金权

(图片说明:英特尔办公楼图片来源:视觉中国)

戴金泉希望在英特尔开展更多的计算机技术创新和探索< br>

由戴金泉的三名应届毕业生组成的团队开始。这个年轻的团队为当时最先进的网络处理器芯片制造了世界上第一个真正商业化的大规模自动化并行和异构计算编译器。

2,001年,在完成了核模拟计算机的“蓝色选择”和“白色选择”系列之后,美国一度停止了高性能计算机的开发。戴金全团队在并行计算编译器方面的突破意义重大,并行计算逐渐成为提高计算机系统性能的主要手段

戴金泉本人在该项目中获得了20多项国际专利,发表了第一篇关于PLDI的论文,该论文当时主要在中国大陆完成(注:PLDI是编程语言和编译技术领域最重要的国际会议)

年来,团队成员从最初的三人增加到20多人。作为该项目的总设计师,戴金泉已经完成了整个产品周期,并向战略客户发布了一些产品。在这个过程中,他也见证了编译器技术的逐渐发展和成熟。然而,戴金全并不满足于仅仅是一个编译器。他一直在思考技术的下一个方向。

▍处于大数据技术的前沿。

2008年前后,随着互联网的发展,许多企业面临着数据量不断增加,无法有效存储和处理的问题。戴金泉敏锐地发现了行业对大规模数据存储和处理技术的潜在需求经过技术调查,他发现他以前的大规模并行计算技术和大规模数据存储和处理技术在许多方面是相通的。他决心带领团队全力开发大数据平台。< br>

同年,由阿帕奇基金会开发的分布式系统基础设施Hadoop开始开源,但当时在中国很少有人使用这项技术由戴金泉领导的研发团队与产品团队合作生产Hadoop的国内发行版。他们共同为英特尔赢得了第一批具备大数据技术要求的客户,解决了中国联通、中国移动等企业面临的大数据存储和处理问题。< br>

戴金泉领导英特尔大数据技术全球长期计划。由于他和他的团队的不断努力,英特尔开始逐渐重视大数据业务,并增加了对它的投资。< br>

随着Hadoop的广泛使用和大规模数据存储与处理问题的逐步解决,戴金泉开始思考:行业面临的下一个需求是什么?< br>

他观察到:对于大规模数据,行业将不再满足于对数据库的简单查询,而是需要对数据进行一些更高级的分析,例如实时流分析、图像分析和机器学习然而,当时的Hadoop平台无法实现高效的高级分析任务。< br>

“行业对大数据技术的潜在需求是技术的下一个发展方向戴金泉开始思考如何利用新技术来解决这一新挑战。

2 011年,大金全的团队和加州大学伯克利分校的AMPLab开始合作开发Apache Spark平台(注:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。它最初是由加州大学伯克利分校的AMPLab在2009年开发的,并在2010年成为Apache的开源项目之一)

amps实验室是当时学术界最先进的大数据实验室。戴金泉的团队与amps实验室紧密合作,通过尖端的研究满足行业客户的需求,逐步将Spark开源平台转变为行业最先进的大数据标准平台。

金权

(图片描述:加州大学伯克利分校,AMPLab网站截图图片来源:AMPLab网站)

戴金泉的团队在围绕Spark的大数据分析技术方面一直处于行业领先地位,如实时流分析、高级图形分析、机器学习等。它们为许多大型互联网公司的大数据分析提供技术支持。< br>

例如,2012年,戴金泉的团队帮助优酷使用Spark进行分布式大数据分析,其图形分析效率提高了13倍以上。优酷成为当时第一批分布式星火大数据技术的用户他们还帮助腾讯在Spark上建立了一个大规模的稀疏机器学习模型,将模型的规模提高了十倍以上,训练速度提高了四倍以上。< br>

"行业需求和尖端研究共同决定了技术发展的道路。我认为两者都很重要戴金泉说,“用户正面临着大数据的挑战和需求,但他们不知道哪种更高效的技术能解决这个问题。”因此,当我们发现用户的需求时,我们需要与学术界合作,从研究的角度开发下一代更先进的技术。”

▍大数据和人工智能之间的桥梁

在这个阶段,Spark已经成为一个广泛使用的大数据分析平台框架另一方面,人工智能技术越来越成熟,处于学术界前沿的研究界不断推出创新的深度学习算法< br>

戴金泉认为,大规模分布式机器学习和大数据平台上的深度学习将是下一个方向< br>

但是,戴金泉发现大数据处理和深度学习模型算法之间存在很大差距“深度学习领域的顶尖研究人员不断在模型方面取得突破,但数据科学家、分析师和普通用户发现很难将模型应用于真实生产环境中的大数据社区。“

金权

(图片说明:深度学习与大数据社区之间的差距图片来源:2018全球人工智能与机器人峰会戴金泉演讲)

高级深度学习技术如何跨越领域鸿沟并被大多数“沉默的普通用户”使用?目前,主流的深度学习框架Caffe、Torch和TensorFlow对普通用户并不友好。< br>

"思考如何让大数据用户高效便捷地使用尖端的人工智能技术是我们当时的出发点”戴金泉说道

为了弥合这一差距,戴金泉带领团队推出了BigDL分布式深度学习框架,该框架可以直接在现有的Hadoop和Spark集群上运行。它真正将大数据分析与人工智能结合起来,使更多的大数据用户、数据工程师、数据科学家和数据分析师能够在大数据平台上方便地使用人工智能技术< br>

gold rights总能深入洞察用户的进一步需求在BigDL上与客户的合作项目中,他发现BigDL和Tensorflow的框架离最终的人工智能应用还很远。因为工业人工智能系统涉及一个非常复杂的大数据分析管道,深度学习模型只是整个过程的一部分。此外,还有数据导入、数据清理、特征提取等

金权

(图片描述:工业人工智能系统是一个复杂的大数据分析管道)

Gold Weight开始思考如何将数据处理、机器学习和算法与大数据处理工作流集成在一起

|英特尔于1992年1月-017年开放源代码BigDL。六个月后,戴金泉的团队在Apache Spark、BigDL、TensorFlow等的基础上,建立了分析动物园,这是一个更高级的大数据分析+人工智能平台用户可以用很少的代码使用高级深度学习模型来轻松构建大数据分析和深度学习的应用程序。深度学习技术的使用门槛和成本大大降低。即使数据分析师不能写任何代码,只能写SQL,他们仍然可以使用人工智能。

"bigdl和分析动物园可以将尖端的人工智能技术与大数据平台相结合,并将其应用于实际生产环境中”戴金泉说道< br>

在真实的生产环境中,BigDL和分析动物园可以有效地将深度学习模型集成到整个大数据分析管道中在与JD.com的合作中,JD.com的分布式存储系统中有数亿张图片。如何从大数据系统中读取数亿张图片并有效地处理它们是一个大问题。JD.com刚刚开始使用的GPU解决方案在开发、部署和性能方面遇到了问题。戴金泉团队将应用迁移到Spark和BigDL平台后,运行维护效率比之前的方案提高了3-4倍。

金权

(图片描述:使用BigDL的深度学习应用程序)

BigDL和分析动物园架起了大数据社区和尖端深度学习技术之间的桥梁,也搭建了大数据和人工智能之间的桥梁。< br>

目前,BigDL和分析动物园技术已经被全球大数据用户在开源社区中使用,并且可以在几乎所有公共云平台上使用,包括AWS、Azure、ariyun、百度云等

▍下一代人工智能技术在哪里?

"大数据技术和人工智能逐渐成为包容性技术是技术发展的必然趋势戴金泉解释说:“先进的技术成果最初是以研究为导向的,慢慢地与工业级系统相结合,然后通过开源增加它们的影响力,这样用户就可以广泛地使用它们。”。“

金权

(图片说明:英特尔,一家拥有106名成员的芯片半导体公司,于1969年开始在加利福尼亚州山景城运营。图片来源:英特尔官方网站)

2年,016年,英特尔开始了战略转型,计划从一家个人电脑公司转型为一家支持云计算和数十亿智能计算设备的公司这意味着英特尔已经从一家老芯片公司转变为一家数据公司,将触角延伸到数据科学的完全不同的领域,包括虚拟现实、无人驾驶、工业互联网、云计算、5G和其他领域。< br>

现在,英特尔的研究团队正在探索下一代人工智能技术,如神经模拟计算(类似大脑的计算)。他们测试了世界上第一个具有自学习能力的芯片Loihi,该芯片可以解决目前深度学习无法解决的一些问题,如稀疏编码、字典学习以及动态学习适应结果的一些问题。

"loihi是一座夏威夷火山的名字,这意味着一旦这项技术出现,将会改变许多计算模式。“虽然这项新技术的应用场景还不太清楚,但戴金泉对此寄予厚望< br>

无论下一代技术如何发展,戴金泉认为,他一直在做的就是预先研究尖端的人工智能研究和技术,然后构建一个工业级的开源平台,让先进的人工智能技术能够很好地被大多数用户使用< br>

在不久的将来,人工智能可能会成为我们日常工作和生活中不可或缺的工具,变得像美容相机一样简单易用,小公司和个人也可以利用人工智能的力量创造更多价值

▍数据骑士

199金泉,英特尔高级首席工程师,大数据技术全球首席技术官他负责领导英特尔全球(位于硅谷和上海)高级大数据分析工程团队的研发(包括分布式机器学习和深度学习)。他带领团队开发了基于Apache Spark框架的分布式深度学习库BigDL。他还在Apache Spark、BigDL、TensorFlow等的基础上构建了分析动物园大数据分析和人工智能平台。他致力于普及人工智能技术,让人工智能技术更贴近大众。

金权


▍50数据科学应用正在进行中...

“50数据科学”项目是DT finance数据骑士计划的核心内容产品,也是KOL挖掘数据内容在数据科学领域的价值在第一金融数据技术公司及其合作伙伴的全力支持下,我们将选择商业数据科学领域最具代表性的50位先驱进行深入访谈,访谈将由DT财经独立审核和发布。


金权


▍加入数据人

“数据人计划”是由第一财务部门DT finance发起的数据社区。它包括数据人专栏、数据人实验室系列活动和数据人联盟。它旨在聚集大数据领域的精英,共同挖掘数据价值。有关数据人计划的详细信息,请回复“数据人计划”。请联系datahero@dtcj.com寻求帮助和合作。

金权

大家都在看

相关专题