智慧之物
文本|李水清
近年来,短视频已经成为移动互联网飞速发展的地方,快手已经成为最大的交通收割者之一。
据统计,2018年,快动作短视频应用每日直播数量达到2亿,每日播放量达到200亿。大约七分之一的中国人是快速发展的内容制作者,每天增加1500多万部作品。同时,超过1600万人受益于快速通道应用,总收入超过200亿元。自2011年
成立以来,QuickStart已经从Gif生成工具跃升为全球最快、利润最丰厚的短视频内容社区之一,并先后获得百度、腾讯、智虎等互联网巨头的投资,发展速度惊人。
作为新一代视频平台,快速人工智能“黑色技术”也贯穿其内容、发布和交互的各个方面,这让人们想搞清楚
最近,智东来到快手总部,有幸拜访了快手异构计算架构师钟辉,了解了这个“国家视频社区”背后的人工智能技术应用以及英特尔提供的核心“设备”钟辉的电脑屏幕显示了“离2020年春节还有38天”的倒计时,这对他来说就像是高考倒计时。据了解,蒯首上个月刚刚赢得了2020年央视春晚独家互动合作伙伴的竞标
1,Fast Hands,越来越像一个人工智能公司
许多“Fast Hands”用户可以体验,Fast Hands APP有很多酷视频特效和打包功能,这也是Fast Hands人工智能“炫技”的一个大窗口
是根据录制和制作经验独立开发的,如《梵高》特效中的场景语义分割,《雷声》中的手势识别,中国第一部“智能剪影”,以及无需选择手机配置的《改变孩子的脸》特效中的移动终端实时GAN。
,在消费者互动体验方面,其视频增强、转码、播放、渲染、直播和游戏服务都涉及各种智能技术,如将720P视频升级到1080P的超分割算法等。
从内容方面来看,fast player在内容安全、原始保护和视频配音方面有自己的“多模式内容理解”逻辑
具体来说,快手使机器能够提取用户上传的文本、图像和音频中的特征,并通过知识地图、语义理解和分类检索技术将视频与音乐的起伏相匹配,检查内容是否涉及色情和赌博,判断内容对其他在线红色视频是否为假等。
快手负责人张思佳告诉志东,与竞争产品相比,快手更致力于通过机器学习、强化学习、图形表达学习等技术手段实践“包容性”价值观
具体来说,通过新一代推荐系统,快线玩家一方面采用“基本曝光+爬升”的机制,让所有用户的内容都能得到关注,精品也能沉淀下来。另一方面,“基尼系数”(Gini coefficient)被用来平衡流量分配,并适当地将大锚的流量分配给长尾用户,从而弱化了流量维度上的“贫富差距”。
2。面对存储、网络和计算的挑战,有必要构建一个异构计算平台
AI和大数据驱动程序,它体现在从“内容生产”到理解、分发、消费和交互的每一个环节中。作为一个专注于短视频/直播的国家社区,快速人工智能应用的数据中心面临着存储、网络和计算方面的巨大挑战
快手异构计算架构师钟辉说:“一方面,每天增加1500多万件作品,这在内容数据、行为数据和数据特征提取方面带来巨大的存储挑战;另一方面,在训练和推理过程中,由于特征参数越来越多,模型变得越来越大,给这些数据在网络中的传输带来了挑战。加上每天数千亿台显示器,这也带来了计算和内存方面的挑战。“
快递团队的关键解决方案是构建一个“异构计算平台”。"
简单地说,“异构计算”就是给中央处理器增加各种加速器,如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、GPU等。
近年来,中央处理器性能遇到明显瓶颈,每年仅增长3%左右,但数据增长率已经达到30%,因此供需之间存在巨大差距,异构计算应运而生
在加速器上,快速选择英特尔的现场可编程逻辑阵列产品来祝福其数据中心现场可编程门阵列(FPGA)是一种具有灵活性和低延迟特性的可编程器件,正符合快速发展的人工智能模型和算子。
钟辉表示:“与GPU相比,FPGA更适合强调实时推理的在线应用场景。在数据中心,现场可编程门阵列有网络端口,但图形处理器没有,所以图形处理器不擅长一些任务“
三种类型的异构平台,基于英特尔FPGA
钟辉,快速动作异构平台分为三种类型,分别是基于英特尔A10、E3S10和PAC S10的设备以A10为例。其峰值计算力可达1.366触发器,片上还有多行静态随机存取存储器(SRAM),构成片上分布式存储,可提供6MB静态随机存取存储器。与中央处理器和图形处理器不同,它的片内静态随机存取存储器是分布式的,因此它可以提供高达8TB/s的并行带宽,很好地满足了深度学习模型的要求。
此外,A10还有片外复员方案。从接口上,它提供PCIe接口,该接口可以以加速卡的形式插入服务器,形成异构计算系统
同时,A10没有与GPU的网络接口。从开发工具的角度来看,传统的FPGA开发有一个很大的问题,即开发周期很长。现在英特尔引入了OpenCL开发语言来降低开发难度。虽然硬件不能像软件一样制造,但是对于具有一定硬件背景的设计者来说,开发难度和周期可以大大降低。
钟辉说:“另一个有趣的事情是英特尔E3S10。这张大加速卡上有E3中央处理器。它有很强的视频编码和解码能力,因为它也有一个特殊的图形处理器。”然后,添加S10现场可编程门阵列,形成相对完整的异构加速器卡。
4比GPU解决方案
钟辉的能效高8倍,随后推出了基于OpenCL的快速开发案例:“我们在数据中心部署了现场可编程门阵列,面临来自‘天堂’和‘地球’的挑战“
“天堂”是指将FPGA部署在云上,因此快速团队必须首先增加服务容量,充分利用FPGA来减少在线服务延迟,并交付软件等硬件来实现高速服务迭代。”“进入地面”指的是部署,这需要可承受的成本、稳定性和更低的能耗。此外,需要大规模和集装箱化部署来解决资源的灵活部署。
以DRN(深度排名网络)加速为例。当时,商业部门的排序网络在商业高峰期出现抖动,需要异构方案来加速。考虑到由计算主导的工作负载占了中央处理器负载的50%,该团队关闭了将计算块卸载到现场可编程门阵列的功能
在硬件设计中,团队通过矩阵乘法将算法映射到FPGA的阵列结构上。然而,由于使用了数千个乘法单元,运算量达到了数百兆字节,复员方案根本不能得到满足。因此,该团队采用脉动阵列(Systolic Array)结构,将输入数据放在分布式静态随机存取存储器上,从而提供该应用所需的计算能力和带宽,同时降低功耗。
钟辉说:“我们可以看到,与GPU方案相比,延迟减少了约1.5倍,最大吞吐量增加了约1.7倍,功耗减少了近5倍,功耗效率增加了近8倍。”我们已经在数据中心大规模部署了这一功能。对我们来说,这是一个商业场景。从数据中心落地的现场可编程门阵列来看,它相对领先。“
结论:社交媒体平台完全面向人工智能,海量数据仍然基于计算能力
。长期以来,社交媒体平台一直没有处于人工智能技术阶段的中心。然而,通过这次实地考察,我们发现这家“国家”短片公司的人工智能技术似乎比我们在应用程序表面上看到的要深刻得多。
给高速人工智能应用的存储、传输和计算带来了巨大挑战。快速通道选择英特尔中央处理器和现场可编程门阵列支持的“异构计算”设备来应对这些挑战,从而实现延迟和功耗效率的极大优化。随着人工智能技术渗透到各行各业,社交媒体行业的人工智能也深入到内容生成、内容分发、用户交互、引导消费等各个环节。计算能力是人工智能发展的三大因素之一。许多企业已经有了成熟的算法和更充足的数据。此时,利用异构计算等技术来增强计算能力已经成为一项关键措施。