导游: AI芯片已经过了落地元年,云AI芯片成为玩家集中的热门细分战场。 国际半导体大公司仍然是通用市场的支配者,国内外云计算大公司积极跨行业创造专业最强核心,自主AI芯片创业企业也纷纷创新成果,欲称霸市场结构。 智东西队特别从云上的“核心”战争——云AI芯片系列的报道开始,着眼于云AI芯片的全产业链,进行了深入的追踪报道。 本文是系列报道之一。
智物12月11日,“腾讯系”AI芯片创业企业燧原科技今天首次推出云AI训练芯片,考虑DTU和快捷卡云燧T10。
理解DTU采用格罗芬12nm FinFET工艺,在480平方毫米的主芯片上配备了141亿个晶体管,实现了2.5D的高级立体封装,单卡的单精度运算能力是业界第一,达到20TFLOPS,首次支持混合精度,半精度和混合精度,运算能力为80 TT
▲燧原科学技术最初的云AI训练芯片考虑DTU
同时,隋原科学技术推出了最初的计算和编程平台“控制”,现在完全支持TensorFlow,下一阶段支持PyTorch、MXNet、ONNX等行业主要框架,降低迁移成本,为深度开发人员提供SDK和定制
去年夏天作为腾讯投资的国内首家AI芯片创业企业,成立不到一年半,就完成了超过6.6亿元的累积融资,这家年轻创业企业进入大众视野以来,一直受到业界的关注。
经过一年半的安静磨练,初次登场复盖“光环”的创业企业终于正式宣传其核心产品、技术和落地战略,该产品的发展方向也首次公开。
▲燧原技术PCIe快递卡隋T10和OCP标准的OAM云隋t1
燧原科技CEO赵立东表示,目前燧原和腾讯在通用AI的应用场景项目上开展了密切合作,将来会更加扩展到AI的应用场景。
清华大学微电子所长魏少军教授也来到现场,隋原的小费说“厉害”“在世界上引人注目的小费”。
他说制作芯片很难,但比别人制作更多的芯片是非常困难的,隋元队在短短一年半内制作出与主流设备相匹敌的芯片是非常困难的。
AMD紫光老兵创业,第一个云核一次点亮燧原科技的创业团队有着深刻的芯片开发和落地经验。 CEO赵立东和COO张亚林都是芯片界近20年的行业老手。
赵立东的本科和硕士毕业于清华大学电子工程系和美国犹他州立大学电子和计算机系,2007年至2014年在AMD工作,历任计算事业部高级总监、产品工程部高级总监,负责CPU/GPU/APU和多个相关核心IP的研发,团队规模超过千人,中国
2014年12月,他加入紫光通信技术集团副总裁,2015年3月兼任紫光集团尖锐迪科微电子公司总裁,2017年3月兼任紫光集团副总裁。
燧原科技CEO赵立东展示云燧T10
张亚林本科毕业于复旦大学电子工程系,2008年加入AMD,历任老师芯片经理、技术总监,在AMD上海研发中心开发并批量生产了微软XBOX-ONE系列主芯片、融合芯片APU等全球芯片。
2018年3月19日,赵立东和张亚林在上海创建了AI芯片公司隋原科学技术。
燧开了用中国古老的神话燧人氏的钻头取火、取人工火的时代,点燃了文明的火种。
燧原希望在AI的超计算领域燃烧智慧的火种,芯火燃烧燧原。 这是代表燧原初学的“大芯片、硬技术”,是国产自主创新的核心技术和解决办法,为数据中心建立云AI训练和推理加速平台。
成立仅一个月,隋原科学技术就完成了2400万元人民币种子轮融资,首次启动了云培训芯片的开发。 同年7月,该公司完成了3.4亿元的Pre-A回合融资,以腾讯战略投资。
今年5月,它又完成了3亿元的a回合融资,从红点投资中国基金,海松资本、云和资本、腾讯等投资。
同样在5月,云训练芯片按计划流动,包装芯片9月返回燧原上海实验室,一齐亮灯,开始硬件和软件的协作。
11月,该芯片完成了工程样品和样品卡的功能性能测试,并向首批客户发送了样品。
赵立东表示,目前燧原科技实现了燧原1.0 :即建设了顶级工程化团队,实现了产品研发和批量生产完成的产品热启动,完成了加快产品落地的首个AI培训平台的商业化。
下一步,隋原将步入2.0,致力于市场销售和服务支持体系建设、产品解决方案完善、高级人才引进和生态建设等。
云培训芯片的六大特点满足了e级数据中心的部署需求
隋原科学技术旨在开发具有自主知识产权的通用型云培训和推理芯片和软件堆栈,操作员级、芯片级、板级可以定制。
燧原的首片云训练芯片采用了12nm FinFET技术和2.5D高级立体封装技术,480平方毫米的主芯片包括141亿个晶体管,可编程、可扩展、高性能、高能效、强互联、多样化训练
相比之下,NVIDIA Tesla V100采用台积电12nm FinFET工艺,在815平方毫米芯片面积上集成了210亿个晶体管,单精度性能为15TFLOPS。
(1)运算能力:在单精度( FP32 )下运算能力达到20TFLOPS,在半精度和混合精度( BF16/FP16 )下运算能力达到80TFLOPS,最大消耗功率为225W,能力比领先。 据张亚林介绍,这是国内首个支持BF16精度的AI芯片。
(2)可编程:基于可重构芯片的设计理念,实现完全通用的可编程。 张亚林表示,该微体系结构的设计是完全自我研究的,在隋原自主指令集的基础上,从未参考过CPU、GPU体系结构。
该计算核心包括32个通用扩展神经元处理器( SIP ),并且每8个SIP被结合到4个扩展智能计算组( SIC )。 SIC之间通过HBM实现高速互连,通过片上调度算法,数据在传输中完成计算,最大限度地提高SIP利用率。
(3)通用性:支持常用的AI训练模型,如CNN、RNN、LSTM、BERT等,可用于图像、数据流、语音等训练场景。
(4)接口兼容性:第四代标准PCIe接口支持16条链路,每个链路速率为16Gbps,提供双向64GB的接口带宽,并且与主流AI服务器广泛兼容。 目前,英特尔不支持第四代PCIe接口。
(5)生态开放:构建计算和编程平台“控制计算”,对易懂芯片进行特定优化,完全支持TensorFlow,下一阶段支持PyTorch、MXNet、ONNX等主要深度学习框架,完整的编译器 提供调谐工具链,在硬件层打开SDK,向深度开发人员提供细粒度计算能力编程接口。
(6)快速互连:为BERT等复杂模型的集群训练提供分布式调度系统,利用隋原的200GB双向ESL互连技术进行优化,实现25GB双向底板互连方案,满足e级数据中心规模的部署需要。
在1024节点的群集规模中,训练线性度达到86%。 与InfiniBand网络相比,使用相同的互连带宽可以显着降低网络的复杂性和成本。
基于对AI训练芯片的理解,隋原技术为云数据中心构建了AI训练高速卡云T10、双插槽标签卡,支持PCIe 4.0,单卡单精度( FP32 )计算能力达到20TFLOPS,单卡
云燧T10的理论峰值性能和能量比均高于友商旗舰,在ResNet-50进行模型训练的速度明显快于友商旗舰产品。
隋原科技经过规模、性能、成本的综合考虑,为大中小型数据中心提供了单节点模式(标准PCIe卡)、单存储模式(整个存储模块)、集群模式( ESL高速片间互连)三种互连方案,是针对不同客户深入学习的训练
其创新框架、互联方案、分布式计算和编程平台广泛应用于云数据中心、超级计算机中心、互联网、金融和政务等多个AI场景。
据张亚林介绍,卡云燧t1明年5-6月发表的OCP标准OAM,比云燧t1小的尺寸,适用于抽屉式服务器,计算能力达到了22TOPS。
人工智能训练Box由8个云T11(OAM模块)构成,通过OCP标准专用接口连接于CPU服务器
据赵立东介绍,燧原可以提供更多的性价比、能效、开源完整的解决方案,针对不同应用场景的差异化需求,提供硬件和软件定制支持和服务。
挑战云训练市场的四大痛点,隋原三大自信来源
赵立东表示,目前云训练加速市场主要面临四大难点
(1)CPU、GPU等通用芯片不是专门为AI设计的,不能满足爆炸性增长的数据、算法模型带来的计算能力需求,市场需要专门为AI设计的芯片体系结构。
(2)云培训市场被国际头部企业垄断,相关云AI加快产品价格的高涨,制约AI市场规模化发展和产业链的形成和发展。
(3)闭源引起生态封闭,软件堆栈升级和维护、性能优化等依赖性较大,限制了应用着地效率和差异化的实现
(4)技术支持完全依赖供应商,无法为客户优化、定制,国内技术支持水平严重不足,无法满足市场差异化需求。
面对NVIDIA GPU独特的云培训芯片市场结构,许多创业企业不是从“硬”开始,而是从应用需求丰富的终端芯片开始。
隋原技术为什么一开始就选择咬云片这块硬骨头,其自信到底来自于什么?
赵立东认为隋原科学技术的信仰源于天、地之利、人与和。
(1)中: CPU、GPU生态成熟,切入困难,深度学习爆发性发展仅7年,这是一个更开放的战场,有更大的发展空间。 AI算法的创新也带来了体系结构创新和超越的机会。
(2)地利:这是制作AI高端芯片的黄金时代,中国有广泛的应用、人口红利、大量数据、市场机会,国家政策领先、资本支持,创业企业有足够的资金收集高端人才、设备、工具制作高端芯片。
(3)人与:而上海近20年来在集成电路领域积累了大量集成电路人才,在出口具有丰富技术能力和实战经验的人才队伍方面非常优势,也是隋原背弃上海的重要原因。
另一方面,上海通过在AI领域的发展,提供了成熟的算法、软件、架构人才,隋原通过AI与芯片的交叉路线吸引人才。 此外,许多芯片人才希望发挥过去十几年的经验和智慧,隋原正是提供这样的平台。
三个业务方向,战略资本政策由许多人推行
燧原科学技术的战略业务面向三个方向
腾讯云运营商(公共云、私有云、混合云)
行业服务商(安全、金融、游戏、医疗等)
AI超计算中心和政务云(安全可靠)。
国家战略指导和政府在AI和集成电路双路课程中提出的产业政策支持为AI芯片的发展提供了更好的发展空间和市场机遇。
战略与资本两轮驱动下,隋原市场战略着重于以下四点
首先,那个芯片受到腾讯战略的支持,产品热情起动
其次,该芯片具有满足高能效、高利用率和计算能力需求的性价比,吸收了软件迁移成本
第三,燧原计划走开放路线,寻求建立广泛的开源软件生态联盟
最后,隋元希望与第三者合作,通过定制来满足顾客的差异化需求。
张亚林认为,计算能力在AI的基础上,高效的计算能力可以降低计算成本,开放的计算能力可以降低转移成本,可控的计算能力可以降低运营成本,在满足高性能需求的同时,还可以为顾客提供高性价比的产品。
结语:发展芯片硬核技术,冷静看待当前成绩
在芯片国产化浪潮中,AI芯片新势力面临巨大机遇,同时也面临市场大试验。
作为2019年AI芯片落地的元年,国内终端、边缘、云AI芯片的官宣陆续落地。
终端AI芯片主要面临市场碎片化和算法迭代快的风险,云训练芯片的主要挑战是核心技术和国外大手已经构筑了坚实的生态。
据魏少军教授介绍,在国内1700多家集成电流设计公司中,隋原这样的公司很少。 他说,我们的企业必须发展芯片的硬核技术,牢牢记住真正的能力在哪里。
他认为燧原能在第一步获得成功有几个重要的原因。 筹码不是草根组成的,需要团队的完整性,不仅热情,而且实力、方法、时机、方向、产品对、天地利人与人融为一体。 同时,上海政府和多数股东的支持也对燧原的发展产生了积极的影响。
魏教授说,在核心热潮中,这次的发表让很多人理解为了发展IC需要什么样的条件和特质。 同时,我们不应该过度炒热国产化的芯,万里长征的第一步,要冷静地看待现在的成绩。