论文:去噪远程监督开放域问答
源代码:https://git hub . com/thunlp/Openqa
摘要:
远程监督开放域问答系统旨在从未标记的文本集中寻找答案。目前,dsqa系统通常从大规模语料库中检索相关段落,然后使用机器阅读理解技术从最相关的段落中提取正确答案。该方法忽略了其他段落中存在的丰富信息。此外,远程监控数据在训练数据中不可避免地会遇到标签错误的问题,这些噪声数据将继续降低dsqa系统的性能。为了解决这些问题,我们提出了一种新的直接序列质量保证系统,它使用段落选择器来过滤那些有噪声的段落。同时,一个段落阅读器被提议从那些干净的段落中提取正确的答案。在真实场景数据集上的实验结果表明,该模型能够从噪声数据中获取有用的信息,比现有的直接序列质量保证系统获得更好的结果。
导言:
阅读理解旨在解决文档中的问答任务,已成为自然语言处理搜索任务的焦点技术。许多阅读理解系统已经开发出来,并取得了巨大的潜在成果。这些系统通常基于多层神经网络和注意机制。在某种程度上,机器阅读理解已经显示了它的力量,能够阅读、处理和理解自然语言文本。
从陈等人(2017年)提出的直接质量保证系统来看,系统返回的结果经常受到噪声数据的影响,例如:
问:哪个国家发布资本?
答案1:都柏林是爱尔兰最大的城市...
解决方法:这是从文档中检索到的都柏林对齐的段落。显然,这并没有给出这个问题的正确答案。
答案2:都柏林是爱尔兰的首都。...
我们已经从上面检索到的段落中看到了正确的答案,但是在这段文字中同时有许多不相关的标记,也就是说,在返回的结果中有一定的噪声。
针对上述问题,研究人员做了一些进一步的工作:
1 . Chietal(2017)将答案生成过程分解为两个模块:目标段落检索和答案提取
2.王等人(2018a)使用强化学习来联合训练目标段落和答案抽取
上述工作只是从最相关的段落中提取答案,这将在很大程度上丢失被忽略段落之间的信息。事实上,这个正确答案通常分布在几个段落中。因此,王等人(2018b)提出从多个段落中提取证据集,对它们进行排序,然后提取答案。这种方法基本上没有解决噪声数据的影响。
为了解决这个问题,我们提出了一个粗到精的去噪模型(粗到精的降噪模型?)如下:
开放耳机如何降噪
上图是本文提出的dsqa系统的新版本。分析:
1.从大规模语料库中检索段落
2.使用快速段落选择器粗略阅读上面检索到的所有段落,并过滤掉噪音。
3.应用precisionparagraph reader阅读所选段落并提取答案。
4.整合所有选定段落的导出结果。。。)
方法:
第一部分:段落选择器计算给定问题的概率分布和检索到的段落集,如下所示:
第二部分:段落阅读机给定问题Q和段落p(i),段落阅读机使用多层LSTM计算提取答案A的概率分布,如下所示:
每段的问答概率
一般来说,提取答案的概率公式如下:
每个段落的答案概率*该段落在所有检索段落中的概率
第三段在填充前通过
实验结果:
开放耳机如何降噪
分析:本文的方法在5个数据集上取得了最好的结果,因为考虑了段落之间的信息。
开放耳机如何降噪
分析:本文中的段落过滤器可以更好地确定哪些标记与答案匹配,并且它确实回答了问题。方法是联合训练段落过滤器和段落阅读器。
开放耳机如何降噪
分析:以上段落按照段落过滤器的输出概率分布排序,粗体是答案。