智慧事物
文字|李水清
近年来,短视频已经成为移动互联网全速发展的地方,而快手已经成为最大的流量收割者之一。
据统计,2018年,快动作视频应用每日直播数量达到2亿,每日播出量达到200亿。大约七分之一的中国人是快速发展的内容制作者,每天增加1500多万部作品。与此同时,超过1600万人受益于快速跟踪应用,总收入超过200亿元。自2011年
成立以来,快速入门已经从Gif一代工具跃升为全球最快、最赚钱的视频短片内容社区之一,并先后获得了百度、腾讯、智虎等互联网巨头的投资,发展速度惊人。
作为新一代视频平台,快速人工智能的“黑色技术”也贯穿其内容、发布和交互的各个方面,这让人们想一探究竟
最近,智东来到了快速部署总部,有幸拜访了快速部署异构计算架构师钟辉,了解了这个“国家视频社区”背后的人工智能技术应用以及英特尔提供的核心“设备”钟辉的电脑屏幕显示了“离2020年春节还有38天”的倒计时,这对他来说就像是高考倒计时。据了解,快手上个月刚刚赢得了2020年央视春晚独家互动合作伙伴的竞标
1,快速手,越来越像一个人工智能公司
许多“快速手”用户可以体验,快速手应用程序有许多很酷的视频特效和包装功能,这也是快速手人工智能“炫技”的一个大窗口
是在录制和制作经验方面独立开发的,如“梵高”特效中的场景语义分割,“雷神”中的手势识别,中国第一个“智能剪影”,移动终端实时GAN在“改变孩子的脸”特效中不选择手机配置。
,在消费者互动体验方面,其视频增强、转码、播放、渲染、直播和游戏服务都涉及到各种智能技术,如将720P视频升级到1080P的超分割算法等。
从内容方面来看,fast player在内容安全、原始保护和视频配音方面有自己的“多模式内容理解”逻辑
具体来说,quick hand使机器能够提取用户上传的文本、图像和音频中的特征,并通过知识地图、语义理解和分类检索技术将视频与音乐的跌宕起伏进行匹配,检查内容是否涉及色情和赌博,并判断内容是否与其他在线红色视频有假等。
快手负责人张思佳告诉智东,与竞争产品相比,快手更致力于通过机器学习、强化学习、图形表达学习和其他技术手段来实践“包容性”价值观
具体来说,通过新一代的推荐系统,快线玩家一方面采用“基本曝光+攀升”的机制,让所有用户的内容都能得到关注,精品得以沉淀。另一方面,“基尼系数”用于平衡流量分配,将大锚的流量适当分配给长尾用户,从而弱化流量维度上的“贫富差距”。
2。面对存储、网络和计算的挑战,有必要构建一个异构计算平台
AI和大数据驱动,它体现在从“内容生产”到理解、分发、消费和交互的每个环节。作为一个专注于短视频/直播的全国性社区,快速人工智能应用的数据中心在存储、网络和计算方面面临巨大挑战
快速异构计算架构师钟辉说:“一方面,每天增加超过1500万个工作,这在内容数据、行为数据和数据特征提取方面带来了巨大的存储挑战;另一方面,在训练和推理中,由于特征参数越来越多,模型变得越来越大,这给这些数据在网络中的传输带来了挑战。加上每天数千亿的显示器,这也带来了计算和内存方面的挑战。
快递团队的关键解决方案是构建一个“异构计算平台”。"
简单地说,“异构计算”就是给中央处理器增加各种加速器,如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、图形处理器(GPU)等。
近年来,CPU性能遇到了明显的瓶颈,每年仅增长3%左右,但数据增长率已经达到30%,因此供需之间存在巨大差距,异构计算应运而生
在加速器上,快速选择英特尔的现场可编程门阵列产品来支持其数据中心FPGA是一种可编程器件,具有灵活性和低延迟的特点,正符合快速发展的人工智能模型和算子。
钟辉说:“与GPU相比,FPGA更适合强调实时推理的在线应用场景。在数据中心,FPGA有网络端口,但GPU没有,所以GPU不擅长某些任务“
三种类型的异构平台,基于英特尔FPGA
钟辉,快速动作异构平台分为三种类型,分别是基于英特尔A10、E3S10和PAC S10的设备
以A10为例。其峰值计算能力可达1.366倍,片上还有多行静态随机存储器,构成了片上分布式存储,可提供6MB静态随机存储器。与CPU和GPU不同,它的片上SRAM是分布式的,可以提供高达8TB/s的并行带宽,很好地满足了深度学习模型的要求。
此外,A10也有片外DDR。从接口上看,它提供了PCIe接口,可以以加速卡的形式插入服务器,形成一个异构的计算系统
同时,A10没有与GPU的网络接口。从开发工具来看,传统的FPGA开发存在一个很大的问题,即开发周期很长。现在英特尔引入了OpenCL开发语言来降低开发难度。虽然硬件不能像软件一样制造,但对于具有一定硬件背景的设计者来说,开发难度和周期可以大大降低。
钟辉说:“另一件有趣的事情是英特尔E3S10。这张大的加速器卡上有E3中央处理器。它有很强的视频编码和解码能力,因为它也有一个特殊的图形处理器。”然后,通过增加S10可编程门阵列,形成相对完整的异构加速器卡。“
4的能效是
钟辉的8倍,然后推出了基于OpenCL的快速通道开发案例:“我们在数据中心部署了现场可编程门阵列,面临来自‘天堂’和‘地球’的挑战“
“天堂”意味着现场可编程门阵列部署在云上,因此快速团队必须首先增加服务容量,充分利用现场可编程门阵列来减少在线服务延迟,并交付软件等硬件来实现高速服务迭代。”“进入地面”指的是部署,这需要负担得起的成本、稳定性和较低的能耗。此外,需要大规模的集装箱化部署来解决资源的灵活部署。
以DRN(深度排名网络)加速为例。当时,商业部门的排序网络在业务高峰期出现抖动,需要异构方案来加速。考虑到由计算主导的工作负载占了50%的CPU负载,该团队将计算块卸载到FPGA
在硬件设计中,团队通过矩阵乘法将算法映射到FPGA的阵列结构。然而,由于使用了成千上万的乘法单元,并且运算量达到了数百兆字节,所以完全不能满足DDR。因此,该团队采用了脉动阵列(脉动阵列)结构,并将输入数据放在分布式SRAM上,从而提供了该应用所需的计算能力和带宽,同时降低了功耗。
钟辉说:“我们可以看到,与GPU方案相比,延迟降低了约1.5倍,最大吞吐量提高了约1.7倍,功耗降低了近5倍,功耗效率提高了近8倍。”我们已经在数据中心进行了大规模部署。这是我们的商业场景。从FPGA登陆数据中心的角度来看,它相对领先。“
结论:社交媒体平台完全面向人工智能,海量数据仍然基于计算能力
。很长一段时间以来,社交媒体平台并没有处于人工智能技术阶段的中心。然而,通过这次实地考察,我们发现这家“国家”短片公司的人工智能技术似乎比我们在应用程序表面看到的要深刻得多。
给快速人工智能应用背后的存储、传输和计算带来了巨大挑战。快速通道选择英特尔处理器和现场可编程门阵列支持的“异构计算”设备来应对这些挑战,从而实现延迟和功耗效率的最佳化。
随着人工智能技术渗透到各行各业,社交媒体行业的人工智能也深入到内容生成、内容分发、用户交互、引导消费等各个环节。计算能力是人工智能发展的三个主要因素之一。许多企业已经有了成熟的算法和更充足的数据。此时,使用异构计算和其他技术来增强计算能力已经成为一项关键措施。