机器理解人类语言的最大障碍是什么?曼宁告诉过你
该摘要选自InfoQ
10月31日,由北京致远人工智能研究所主办的2019年北京致远会议在国家会议中心开幕,为期两天。致远会议是北京创建全球人工智能学术、创新最佳生态的标志性学术活动,定位为“人工智能专家盛会”。
斯坦福大学人工智能实验室负责人克里斯托弗·曼宁(Christopher Manning)在“自然语言处理特别论坛”上分享了自然语言处理的最新进展。他说:自然语言处理在过去的两年里取得了显著的成就。BERT和其他预培训模式的出现给行业带来了新的思维方式。然而,在语义理解等方面仍然存在明显的不足,业界仍需要共同努力来解决这些问题。
大家下午好!我是克里斯托弗·曼宁,斯坦福人工智能实验室的负责人。
今天下午,我将与大家分享自然语言处理的最新发展。我今天演讲的主题分为两个部分:第一部分,我将对自然语言处理的一些发展、商业应用、最新发展和一些一般信息进行一般性介绍。在第二部分,我将向你介绍一些我和我的合作者在语言模型方面所做的详细工作。
让我们从人开始。人们有需求,人们希望相互交流,完成任务,并愿意分享我们的想法和意见。当我们谈论语言时,我们主要谈论人与人之间的合作。斯坦福大学的心理学家克拉克说:“我们对语言的普遍误解是指语言与单词及其意义相关,但事实并非如此。”语言主要指人和人的意思。我们应该让机器理解人类交流的语言,让机器像人类一样顺畅地交流。这样,计算机和其他机器可以帮助我们做一些事情。
如果我们要在人和机器之间建立紧密的联系并相互理解,我们需要机器来真正理解人类语言的微妙之处。我们现在手里和口袋里有这么多功能强大的电脑和手机。手机是非常强大的微型计算机。另一方面,在我们的手机中,我们很难总结这些文本。这些文本相对较小。年轻人、老年人和受教育程度低的人不容易使用手机,因为他们必须总结和概括这些信息。我们可以用人类语言而不是手机直接交流。
过去一年,高德纳的竞争预测:到2020年,也就是明年,40%的用户将与一些新的应用程序交互,这些新的应用程序将支持与人工智能的对话,他们将支持能够与人工智能对话的用户界面。
毫无疑问,我们现在正在使用语音界面在世界各地实现蓬勃发展。在美国,人们发现现在有1/3的家庭拥有智能语音设备,这比手机的初始使用率要快。
我们现在利用语音等功能,因为这是最简单的交互模式。我们做了一项研究,讨论了语音识别和文本编辑的速度。平均来说,语音输入的速度比键盘快三倍。
这个领域有很多机会。我们可以使用各种语音识别技术作为前端技术,并将其应用到您想要的各种应用中。
语音识别技术直到最近才开始流行。许多人不知道发生了多少变化。因此,我认为这是可能的。我们将使用一些语音接口来确保这方面得到充分发挥。目前,使用的还不够。我们发现许多语音识别的支持者说:语音识别越来越好,我们应该支持它。然而,语音识别的现实仍然不是特别好,特别是对于普通用户。
直到2010年上半年,语音识别才开始改变。使用深度神经网络进行语音识别可以将错误率降低1/3。此外,我们可以不断保证深度学习语音识别的系统错误率降低3/4,即会话错误率,现在我们会发现语音识别的错误率越来越低。
此外,我们还了解到,语音识别不仅在识别领域有用,而且对包括合成在内的整个语音方向性的发展也非常有益。有很多人想要有效地合成语音,现在很多语音合成已经可以达到和人一样的声音。卷积神经网络具有更好的能力来保证合成语言听起来像人类一样流畅。此外,它相当于在对话过程中人和机器的感知质量。
简而言之,未来是光明的。但是有时候如果你想在手机上使用语音界面,你会发现一切都很好。
近年来,信息抽取、舆情分析、答疑、语义搜索、聊天机器人等都可以怎样进行。解决各方面的需求?让我快速介绍你。
舆论分析主要用来分析一个人表达快乐、不快乐还是中立的观点。几年前,研究人员会说如何通过网络创建一些树结构来理解对具有细微差异的树的细微分析,包括语法、语义等。我们想解释每个不同的部分表达了什么样的情感。
自然语言系统主要体现在如何构建对话机器人和对话代理上。一个时尚品牌创造了一个新的自然语言对话系统,可以帮助用户选择衣服。这使订单增加了300%,并且更有效地利用了他们在广告上的花费。
最后一个应用领域是神经机器翻译。直到2014年,谷歌才真正实现了神经机器翻译,然后我的研究团队也能做到这一点。我们取得了很大的进步,翻译质量也有了很大的提高。我们更好地模拟单词的意思,有一个更进一步更大的语境,提高翻译质量,把单词放在这个语境中,这意味着更准确。
此外,机器翻译也会在商业场景中受到影响。易趣之前的翻译是基于统计数据。后来,它被升级为自然语言处理系统。翻译准确率提高,销售量增加10%。由于用户可以阅读商家的资料,他们更想购买。
以下是对文本编译器预培训模型的快速介绍。
在过去的两年里,自然语言处理有了重大突破。伯特和GPT 2.0极大地加速了自然语言处理的发展。然而,我们需要理解所有这些现代模型都是转换模型,它们为我们思考神经网络语言提供了一种新的方式。
我们有这些语言的模型来为更好地理解语言提供基础。我们可以带更多的文本来预先训练这些单词的预测。这样,我们可以得到神经网络的初始权值,了解路径,总结和归纳自然语言的差异。然后我们可以优化网络,这样它就可以用有限的数据完成任务。
毫无疑问,我们的许多最新方法现在受益于前所未有的计算能力。尽管这些模式发展得更好,但我们的环境和能源使用并没有从中受益。我们现在有很多学术文件。这些学术文章指出,当我们生成高质量的报告时,我们应该考虑我们使用了多少计算。我们应该充分利用更有效的培训前模式来完成任务。
在结束之前,分享我最后的一些想法:
这些模型具有自我监督和学习的能力,并且能够识别自己的任务。有些单词可以自动隐藏,或者特定的单词可以隐藏在文本中。这在自然语言处理中非常有效。这种方向似乎比传统的多任务学习更好。自然语言处理实际上是一种自我监督的学习。在机器人学和视觉等其他领域,我看不到这样的自我监督学习。
我们现在正在研究自我调节,并且已经用这么多的语言数据获得了相对较好的结果。似乎对我们以前的语言数据的分析,如演绎,似乎是一个错误,而且似乎没有这样的注释就可以建立模型。语言结构是错误的吗?事实上,情况并非如此。我们发现深层语境词的表达从传统的关键发现者转移到了语音发现设备。最近,我的团队也做了一些研究。他们已经学会了语言的结构、语言和句法等。他们有机会进一步分享。
这是我的介绍,谢谢!
问答。A
问:你刚刚谈到了你的新型号ELECTRA型号。这听起来像是一个非常有效的模型,并且具有非常好的计算效率。你能告诉我们为什么这样一个新设计的任务比前一个更有效率吗?
克里斯托弗·曼宁:这里有双向语境学习。像面具这样的语言模式就像传统的语言学习模式。这取决于背景。事实上,这是一个与数据效率相关的ELECTRA模型,可以预测每个单词的位置。例如,如果每个单词的位置都被替换了,BERT的模型只预测一到七个单词就能看到这样隐藏的标记,然后如何进行预测。现在ELECTRA是一个双向二进制预测任务,在预测方面似乎有更好的优势。这样,可以更快地完成二进制任务,并且基本上可以获得更高的数据效率和速度,从而可以更快地学习好的模型。
问:就像BERT模型一样,它对模型结构和参数进行建模,你认为有没有一个好的方法将清晰的语言结构和大规模的预训练模型结合起来?
克里斯托弗·曼宁:使用清晰的语言结构,确实是一个我一直特别感兴趣的话题。我认为语言结构非常有用,已经被人们所应用。例如,BERT模型在学习语言结构方面取得了很大的进步,并且非常成功。在前面的文章中,你可以拿出一个BERT来表示它,然后把它放在一个句子中来表示结构。这方面非常成熟。我认为将来会有更多的灵活性和更有用的句法结构。我认为这是一个非常强大的发展方向。
问:你认为在数字驱动时代,人类知识在教授机器理解人类语言方面实际上扮演了什么角色?
克里斯托弗·曼宁:我认为人类知识非常重要,非常重要!我们会认为对人类语言的理解将依赖于包罗万象的知识,我们必须找到一种方法把它纳入自然语言处理的系统过程。现在变形金刚的模型根本没有给你答案。它只是给你几百个单词的上下文,仅此而已。没有办法扩大它。包括联想记忆,会有某种结构吗?不,只是一些图形知识。我们会觉得我们必须找到另一种方式来吸收知识。这是一个必要的举措。只有这样,我们才能获得更高水平的自然语言处理。