越来越多的研究表明,如果有足够的语料库,人脸的动作和声音的动作是可以同步的。 2年前,卡内基梅隆大学的研究者发表了一篇论文,阐述了将一个人的脸部动作转移到另一个人的方法。
今年6月,三星的应用科学家介绍了可以将眉毛、嘴巴、睫毛、脸颊特写成动画的端对端模型。 仅仅几个星期之后,Udacity示出了能够自动生成从语音旁白立体的语音视频的系统。
基于以前的研究和工作,微软的研究小组本周提出了技术。 他们主张这个技术可以提高化身的传声动画的真实性。 迄今为止,头部动画的生成需要清晰的、没有噪音的声音和中性的语调。 现在,研究人员说,将语音序列分解成语音内容和背景噪音等要素的技术,可以使用有噪音和“感情上的颜色”的数据样本。
雷锋网注:图片来自微软
众所周知,声音有差异。 不同的人在不同的环境下使用相同的语言,其持续性、振幅、语调等各不相同。 不仅是声音内容,声音本身也搭载着丰富的信息,可以明确人的感情状态、身份(性别、年龄、人种)和个性等。
事实上,微软研究人员提出的技术基于学习潜在的自变化编码器(雷锋网推荐: variational autoencode,VAE )。 VAE可以将输入声音分解为各种表示形式,可以基于输入声音从分布中采样若干内容表示序列,包括编码内容、表情、以及其他变化的要素,并且将该序列与输入面部图像一起提供给视频生成器以进行面部运动图像处理。
为了培训和测试VAE,研究人员选择了三个数据集:
GRID :这是一个视听语料库,每个语料库包含34个说话人的1000人的录音
包括7442部电影作品,来自91个不同种族的演员
lr s3:包含超过10万个TED视频口语的数据库。
研究人员将GRID和CREMA-D数据输入模型,识别语音和情感表达后,采用峰值信噪比( PSNR )和结构相似度指数( ssim )定量指标评价视频生成质量。
该研究小组表示,在表达方面,他们的方法与其他清晰、中性的口语表达方法在所有指标中均相同。 他们注意到,这种方法不仅可以在整个情感谱中持续表达,而且还可以应对当前最先进的声纹传播方法。
值得注意的是,其变种特异性预习方法还可扩展到身份和性别等其他语音要素,这些要素可作为未来工作的一部分进行探索。 通过对噪声和情绪语音样本的测试,研究人员对其模型进行了验证,发现语音变化时,该方法优于现有技术水平。
雷锋网注:编译了 KYLE WIGGERS在 venturebeat上发表的文章。
微软的研究成果: https://ARX av.org/pdf/1910.00726.pdf