斯坦福大学_斯坦福大学EMNLP2019论文：回答大规模开放领域复杂问题

雷锋网AI科学技术评论，斯坦福大学Christopher D. Manning小组的论文“answeringcomplexopen-domainquestionsthroughiterativequerygeneration”(反复生成查询语句来回答复杂的开放区域问题) 最近EMN的LP-IJCNLP 2019，论文的第一作者彭琪为这篇任务和这篇论文写下了深刻的解读文章。雷锋网AI技术评审全文如下:。

本文的主题: NLP研究大家已经在开放领域的问答中取得了很大进步，但本文提出的系统继续在“大量文本回答复杂问题”的情况下得到改善。我们给出了一种高效、可解释的方法，可以用系统进行多级推理。

从搜索引擎到自动问答系统，自然语言处理( NLP )系统的发展大大增强了我们获取文本信息的能力，节省了记忆和检索的时间。今天，每当我们头脑中出现问题，我们的第一反应就是去搜索引擎(谷歌，百度，必需)搜索。

既有“中国面积最大省是什么省”的问题，也有“GPS检测地震波的第一个人是谁”的问题，各搜索引擎很难直接回答这个问题。在这种情况下，可以看出，像维基百科这样的网络上的电子百科全书，使用GPS检测地震波的第一个人就是美国的科学家。

如果NLP系统能够直接得出这个答案的话，就没有必要在知识库中阅读报道寻找答案。这个问题被称为开放域q & a (开放域QA )，也是NLP科学研究的热门任务。

开放领域问答的背景

在介绍开放式问答的新方法之前，我们需要花一些时间来了解为什么现有系统在回答复杂问题时不太满意这个问题。

开放区域vs封闭区域/内容限定

NLP研究者们设计的早期答疑系统，例如BASEBALL和LUNAR，都是高度的领域限定。这两个系统可以分别回答美国某年棒球运动员的信息，或者回到地球的月球着陆船的信息，但对其他所有领域的信息都无能为力，超出了设计领域。也就是说，这两个系统是封闭的区域。

从此，研究人员开始向开放领域的问答方向进攻。对于开放领域的问答，提出的问题不限于预先定义的领域和领域知识。在理想的情况下，问答系统必须能够在大规模的文本中找到我们所需要的答案。

单句文书开放领域的问答有时也被称为“解读理解”，NLP研究者们近年来在这个问题上有着显着的突破。此问题是指在NLP系统中指定单个文档，或者仅指定可能包含问题答案的文本，然后根据该文本回答问题。是许多流行nlpq&a数据集(以SQuAD为代表)的基本格式。使用SQuAD数据集训练的问答系统能够以描述各个领域的知识的文本方式工作。但是，在这样的问答系统中，首先需要找出答案可能包含在内的文件(其文字)，对此有一些限制。

为了解决这个问题，研究者们开始研究可以用大量的文本工作的问答系统。比起SQuAD代表的“从包含答案的文本中找出答案”，更多的文本工作系统需要在文档中过滤，最终找出答案，这与我们使用搜索引擎相似。这样的任务设定成为开放内容开放域q&a(open-contextopen-domainqa )，比较难读取。当然，即使想到问题，也不知道从哪里寻找答案的时候，开放领域的问答比读书的理解更有用。除了内容限定的问答以外的新问题是如何以可扩展的方式将大量文本缩小到可处理的范围，我们可以在现有的阅读理解模式中找到它的答案。

开放域问答系统

在文本检索会议( TREC )的一系列问答比赛的触发下，近年来，研究人员开始尝试将具有巨大潜力的神经网络对话模型用于开放领域的问答任务。

普林斯顿大学陈丹琦小组首先结合传统搜索引擎和现代神经对话系统处理这个问题。他们开放领域的答案被称为drqa ( https://ARX av.org/ABS/1704.00051 )，但简单有效:给出某些问题后，系统会根据问题在文件库中搜索可能包含答案的文件，然后筛选出的数量变少

陈丹琦小组的DrQA模型图，这篇论文被ACL 2017接收

在开放领域的问答中，许多最近的研究仍然遵循这种“检索+阅读理解”的两步行方案，然后添加一些排序、神经网络检索、更好的混合训练等特性作为改进。

复杂开放领域问题带来的挑战

但是，实际上“检索+阅读理解”这一两步的方案并不能很好地处理复杂的问题。让我举个例子来说明这是什么。

某天突然想起扮演“海王”的演员拍了什么照片，但突然想不起他的名字了。这时，我们先去搜索引擎找“海王”或“海王的主人公”，确认那个人是谁。一般来说，从最初的几个搜索结果来看，他的名字是“Jason moo”，搜索那个名字就能找到他拍的是什么。

在这个简单的例子中，并不是从问题中直接读取回答问题所需要的全部重要信息。也就是说，这其实是知识发现问题。因此，这个问题在现在的“检索+阅读理解”模式的开放领域对话系统中很难处理。因为答案和问题之间有重要的意义信息。

对于这种问题，一个解决方案是联合训练神经网络的信息检索模型和理解模型，更新查询句子，找到更多信息并回答问题。这种方式确实有改进的机会，但使用这种远程监视信号进行信息检索模型的预训练，找到可能包含答案的文件很可能失败。因为问题和我们想找的文件在意义上的一致部分太少了。从问题到回答的端到端训练也耗费了很多资源，是不可能的。在第一步推论之前进行查询需要面对巨大的查询空间，因此即使我们可以训练执行此任务的模型，该模型的计算效率极低的可能性也很高，很难解释。

所以，我们能设计一个新的开放式领域对话系统来处理复杂的多级推理问题，计算效率高吗？斯坦福大学Christopher D. Manning小组的论文“answeringcomplexopen-domainquestionsthroughiterativequerygeneration”(反复生成查询语句来回答复杂的开放区域问题) 这篇论文的第一位作者是这篇介绍博客的作者彭琦，论文也为EMNLP-IJCNLP 2019所接受，并于11月6日口头报道。

回答复杂开放领域的问题

论文中介绍该系统分为两个部分，首先介绍多级推理问题对开放领域问答的总体策略，然后介绍评价该系统的数据集和实验结果。

总体战略

如上所述，“检索+阅读理解”模型系统之所以不能有效地处理需要复杂的多级推理的开放区域问题，是因为1、回答这些问题需要多个支持线索，2、仅靠本来的问题很难找到所有需要的支持线索。理想的系统应该像人一样重复“阅读发现的信息”和“寻找更多线索”这两件事。

这是论文标题的“iterative query generation”部分的意思，论文中提出的该开放区域对话系统可以从现在检索的文本内容中反复生成自然语言问题，在最终回答问题之前检索更多必要的信息。这种设计的优点是: 1、可以在不同的问题上检索多个不同的支持线索2、在产生新问题的过程中通过利用在较早检索中发现的文档，可以产生仅仅是最早的问题不能产生的问题。由于该系统能够生成自然语言的查询问题，因此可以按照信息检索的顺序直接利用现有的信息检索系统进行高效的检索。此外，该模型的运行方式对人也有更好的说明，可以随时介入，纠正运行中出现的问题。

例如，以英文版维基百科为知识库，向系统询问“Armada”作者的哪部小说将被制作成Steven Spielberg电影，其解答过程如下

模型首先生成查询问题，以便在维基百科中搜索小说《Armada》的相关信息。在“阅读理解”搜索到的文件后，开始寻找埃尔斯特cline的详细内容。最后，系统找到回答此问题所需的所有文档后，重叠这些搜索步骤中找到的上级文档，并将其输入到内容有限的问答系统中以预测最终答案。

此方法的主要问题是如何训练查询问题生成器以便与其他组件协作，以及如何使用生成的问题语句查找所有必需的信息。这篇论文的主要贡献是高效地训练问题生成器的方法，检索哪个文件需要极少的监视信号，在回答复杂的开放区域问题时可以发挥出很好的表现。我们的方法是以重要的观察为基础的。如果一个问题能够根据资料来回答的话，其中就存在可以追踪的程序链(或者图)。换句话说，我们提出在寻找支持线索的过程中，在“已知”(问题文本，发现的线索)和“寻找”(剩馀的支持线索)之间必须有强烈的意义重复。

HotpotQA数据集附带IR信息检索系统，与Elasticsearch共同成为“检索+阅读理解”基线系统的Elasticsearch具有更强的检索能力，但将F1从22.75%提高到27.11% GoldEn Retriever将公开排名的成绩提高到39.13% F1，考虑到以前的系统使用强大的BERT模型作为组件，这一成绩更为宝贵。现在开发集的最佳成绩来自于Oracle IR，我们认为，只要他们能够继续改进问题生成器，按照设计生成问题，表现就不会太迟到Oracle IR。

在说明中，我们不仅观察了指标点数，还具体观察了GoldEn Retriever生成的查询问题。生成的问题理解得很好，也有纠正错误的能力。

开放源代码

我们已将以下资源开放给https://github.com/qipeng/golden-retriever

再现测试结果的模型代码和预训练模型

培训模式中使用的“理想”问题，以及与GoldEn Retriever培训中使用的热端口QA相比更改的培训和开发文档

GoldEn Retriever预测的查询问题和内容限定对话模型的开发/测试集输入

所有这些资源都是英语

有关模型的更详细介绍，请参阅原始论文“answeringcomplexopen-dominequstionstrititytriativequerygeneration”https://NLP.Stanford.edu/pubs/qi 2019 answer

更多关于EMNLP-IJCNLP 2019的报道欢迎继续关注雷锋网络AI科技评论。

viavhttp://ai.Stanford.edu/blog/answering-complex-questions /，编译雷锋网路ai科学技术评论

斯坦福大学_斯坦福大学EMNLP2019论文：回答大规模开放领域复杂问题

斯坦福大学_斯坦福大学EMNLP2019论文：回答大规模开放领域复杂问题的相关文章

2015最新广场舞神曲_广场舞失恋阵线神曲

小米mix2系统分身【相关词_ 小米mix2系统降级】

苏宁总部地址_投诉苏宁最有效的方法

广州市足球锦标赛【相关词_欧洲足球锦标赛】

dostyle显示器测评_dostyle显示器怎么样

历届世界杯首场比分_历届世界杯首场比赛

人工智能行业宏观分析_人工智能宏观环境分析

六月份什么股票好_股票六月份

移动彩铃在哪领流量【相关词_移动彩铃】

大电机技术_大电机技术杂志

渭南滴滴快车是否违法【相关词_ 渭南市交通违法查询】

魔兽世界改字体_魔兽世界：前一秒没出石楠，下一秒改分配，美名其曰怕玩家点错

施工许可证开工【相关词_ 开工证和施工许可证】

股票交易培训【相关词_ 咖啡报关清关】

元宵节的来历150个字_关于元宵节的诗句

50平米两室一厅设计图 60平米两室一厅设计图

兴业银行快速贷款兴业银行信用贷款

bose联系电话_收血的联系电话

口是心非什么意思_一旋好二旋坏？孩子头上有“2个旋”代表什么意思？家长要知道

在日本更新中国护照_中国护照可以到日本免签吗

大家都在看

相关专题

斯坦福大学_斯坦福大学EMNLP2019论文：回答大规模开放领域复杂问题

斯坦福大学_斯坦福大学EMNLP2019论文：回答大规模开放领域复杂问题的相关文章

2015最新广场舞神曲_广场舞失恋阵线神曲

小米mix2系统分身【相关词_ 小米mix2系统降级】

苏宁总部地址_投诉苏宁最有效的方法

广州市足球锦标赛【相关词_欧洲足球锦标赛】

dostyle显示器测评_dostyle显示器怎么样

历届世界杯首场比分_历届世界杯首场比赛

人工智能行业宏观分析_人工智能宏观环境分析

六月份什么股票好_股票六月份

移动彩铃在哪领流量【相关词_移动彩铃】

大电机技术_大电机技术杂志

渭南滴滴快车是否违法【相关词_ 渭南市交通违法查询】

魔兽世界改字体_魔兽世界：前一秒没出石楠，下一秒改分配，美名其曰怕玩家点错

施工许可证开工【相关词_ 开工证和施工许可证】

股票交易培训【相关词_ 咖啡报关清关】

元宵节的来历150个字_关于元宵节的诗句

50平米两室一厅设计图 60平米两室一厅设计图

兴业银行快速贷款 兴业银行信用贷款

bose联系电话_收血的联系电话

口是心非什么意思_一旋好二旋坏？孩子头上有“2个旋”代表什么意思？家长要知道

在日本更新中国护照_中国护照可以到日本免签吗

大家都在看

相关专题

兴业银行快速贷款兴业银行信用贷款