刘洋_ 清华刘洋基于深度学习的机器翻译突破知识整合、可解释和鲁棒性

刘洋

[新智元简介]5月30日，由北京致远人工智能研究所主办的第四期《致远论坛——知识与认知图谱》在清华大学成功举行。清华大学计算机系副教授兼系主任刘洋在基于神经网络和深度学习的机器翻译方面面临三大挑战，即知识集成、可解释性/可视化和鲁棒性。针对以上三个挑战，介绍了团队的最新研究和突破性工作。

由于人类的语言障碍，《圣经》故事中的巴别塔未能建成，以失败告终。如何打破人类语言之间的障碍也成为人类一直想解决的问题。

世界语言分布图(来源:维基百科)

地址:

https://en.wikipedia.org/wiki/Linguistic_map

目前，世界上大约有6000种语言，其中3000多种有数学系统。如上图所示，我们可以看到不同国家和地区使用的语言大不相同。不同语言之间的交流存在许多问题。这些问题就是我们通常所说的“语言障碍”。

机器翻译是解决语言障碍问题的关键技术。

机器翻译的概念已经存在了几个世纪，但直到20世纪50年代初才成为现实。从那以后，机器翻译取得了很大的进步。

机器翻译的主要任务是自动将一种语言翻译成另一种语言，这看起来像一个函数映射问题。然而，困难在于语言本身的复杂性和多样性。

世界上的语言根据其形式可以分为屈折型、内聚型和孤立型。如何转换这些语言是机器翻译中需要解决的一个重要问题(关于这三种语言形式的细节，请参见文章的结尾)。

自1990年以来，特别是在互联网出现之后，人们已经获得了大量可读和机器可读的文本，所以他们更喜欢使用数据进行机器翻译。这一时期分为两个阶段:

第一阶段是使用传统统计方法来(从1990年到2013年)，需要且依赖于人写特征；第二种阶段是采用深度学习方法(从2013年至今)。这一阶段不需要人写特征就写规则，再后来只需要写框架即可。

发展得越深入，人的参与就越精细。目前，主流方法是数据驱动的。

到2016年，机器学习将成为商业世界中机器翻译的基本方法。其核心思想是将源语言投影到目标语言中，使用非常复杂的核心网络作为非线性函数。因此，如何设计这样的功能已经成为一个非常关键的问题。

5月30日，由北京致远人工智能研究所主办的《致远论坛——知识与认知图谱》第四期在清华大学成功举行。

刘洋

会议期间，清华大学计算机系副教授、博士生导师、智能技术与系统实验室主任刘洋教授就“基于深度学习的机器翻译”发表了精彩的报告。

根据上述机器翻译的现状，刘洋老师认为这种基于神经网络和深入学习的方法面临三大挑战:

第一是知识整合(Knowledge incorporation)。如何将先验知识整合到神经机器翻译(NMT)中?第二是解释性。如何解释和理解NMT?第三是鲁棒性。如何使NMT对噪声具有鲁棒性?

对此，刘洋先生从以上三个方面介绍了他的研究重点和突破。

机器翻译的三大挑战:知识整合

如何给一些应用系统增加知识是一个非常热门的话题。

刘洋先生说，数据、知识和模型对整个人工智能非常重要。研究人员建立了一个从数据中学习参数的数学模型，这在某种程度上也是一种表示，并使用相同的模型来解决实际问题。

然而，有时数据量是不够的，比如爱斯基摩人和维吾尔人，而且几乎没有数据可言。由于缺乏数据，翻译这种不受欢迎的小领域语言变得非常困难。因此，我们可以考虑增加知识。

尽管近年来神经机器翻译取得了很大进展，但是如何整合多个重叠的任意先验知识资源仍然是一个挑战。针对这个问题，刘洋和他的团队发起了一项研究。

ArXiv地址:

https://arxiv.org/pdf/1811.01100.pdf

在这项工作中，后向正则化被提出来提供一个将先验知识集成到神经机器翻译中的一般框架。先验知识源表示为对数线性模型的特征，它指导神经翻译模型的学习过程。汉英翻译实验表明，该方法取得了显著的进步。

刘洋老师说，他希望提供一个可以添加所有知识的总体框架。因此，这项工作将人类知识表达为a 空，这是一个符号空。

然后，深入学习的次数被表示为另一个空，并且这两个空试图相关联。然后，知识被人类知识所支配，传统知识被压缩到其中。通过让它知道深入学习的过程，可以提供更好的总体框架。

在这项工作中，以下特性用于对知识源进行编码。

双语词典(bilingual dictionary)：

刘洋

词表(phrase table)：

coverage penalty：

刘洋

这项工作与RNNsearch、CPR和PostReg进行了比较。性能比较结果如下:

与RNNsearch、CPR和PostReg的比较

机器翻译的三大挑战:可解释性/可视化

第二个问题是可以解释或想象的。

目前，在机器翻译领域，神经机器翻译以其更好的性能取代统计机器翻译成为主流方法。

大多数神经机器翻译是基于注意机制的编码器-解码器模型。然而，这个模型在内部传递浮点数，这类似于一个“黑盒”，很难理解和调试。

像“黑匣子”这样的模型很难理解和调试。

当输入句子和输出句子时，生成过程是未知的；当有错误时，我不知道是什么造成的。

因此，研究人员渴望打开黑匣子，了解内部信息是如何传递的，以及是什么导致了这样的错误。

针对这个问题，刘洋先生和他的团队已经着手解决了。

论文地址:

https://aclweb.org/anthology/P17-1106

这项工作的主要贡献包括:

利用层级相关性传播算法可视化分析神经机器翻译；能够计算任意隐状态和任意contextual words的相关性，同时不要求神经网络中的函数必须可求偏导，不同于之前只有encoder和decoder隐层之间的对应信息；能够针对机器翻译中出错的例子，进行分析。

最近关于解释和可视化神经模型的工作集中在计算输入层上的单元对输出层最终决策的贡献。例如，在图像分类中，理解单个像素对分类器预测的贡献是重要的。

在这项工作中，团队对计算源词和目标词对基于注意力的编码器-解码器框架中的内部信息的贡献感兴趣。

如下图所示，第三个目标词“约克”的生成取决于源语境(即源句“再牛月”)和目标语境(即部分翻译“新”)。

刘洋

直觉上，源词“牛月”和目标词“新”与“约克”的相关性更强，应该比其他词具有更高的相关性。问题是如何量化和可视化隐藏状态和上下文词向量之间的相关性。

研究人员使用分层相关传播(LRP)来计算神经元水平相关性。使用下图所示的简单前馈网络来说明LRP的核心思想。

如果要计算v1和u1之间的相关性，首先计算v1和z1，z2之间的相关性，然后将v1和z1，z2之间的相关性转移到u1以获得v1和u1之间的相关性。

刘洋

神经机器翻译的LRP算法

通过这种技术，机器翻译中的所有模型都可以被可视化地分析。

刘洋老师说LRP可以为变压器生成相关矩阵。它没有办法分析自己。利用该技术，可以可视化输入、输出和内部关联，更好地分析运行机制。

该团队使用机器翻译中的错误分析来分析遗漏的单词、重复的翻译、不相关单词的形成和否定的倒置。

刘洋

翻译错误分析:词语省略。第六个源词“中”没有被正确翻译。

刘洋

词汇重复。目标词“历史”在翻译中有两个错误。

刘洋

无关词。第九个目标词“forge”与源句无关。

翻译错误分析:否定的。第八个否定词“不”没有翻译。

机器翻译的三大挑战:鲁棒性

第三个问题是稳健性。

例如，假设有一个译文写着“中国电子银行管理新条例将于3月1日生效”。如果“中国”被意外地输入为“中国”，那么所有后续的翻译都会改变，刘洋称之为蝴蝶效应。

刘洋

这是现在存在的一个现实问题:输入中的小干扰将严重扭曲中间表示，从而影响神经机器翻译(NMT)模型的翻译质量。

这是因为深入学习是全球相关性的一种模式。只要有一点变化，就会影响全身，这是非常糟糕的。

为了解决这个问题，刘洋的老师团队就这个问题展开了一项研究。

刘洋

ArXiv地址:
https://arxiv.org/pdf/1805.06130.pdf

在这项研究中，研究人员提出通过拮抗稳定性训练来提高NMT模型的鲁棒性。

其基本思想是使NMT模型中的编码器和解码器对输入干扰具有鲁棒性，并使它们的行为类似于原始输入及其受干扰的对应部分。

刘洋

本文提出了两种产生合成噪声的方法。

词汇水平:

功能级别:

刘洋

给定一个源字，它在向量空之间的邻居可以被选择为噪声字。
损失函数的影响和主要实验结果如下:

刘洋

最后，刘洋先生为神经机器翻译提供了一个开源工具包。感兴趣的读者可以访问以下链接进行实验:

刘洋

开源工具包地址:
http://thumt.thunlp.org/

附件:三种语言表格详细信息[/s2/]

孤立语以中文为代表，它由各自独立且具有完整意义的单词，通过单纯的叠加构成文句。黏着语以乌拉尔阿尔泰语系为中心，通过用助词、助动词将独立的单词连接起来，完成整个文章的陈述。屈折语指的是欧洲语系，单词本身随着人称、时态、格等发生复杂的形态变化。

参考: