开放耳机如何降噪_开放域对话系统降噪远程监控学习

论文:去噪远程监督开放域问答

源代码:https://git hub . com/thunlp/Openqa

摘要:

远程监督开放域问答系统旨在从未标记的文本集中寻找答案。目前,dsqa系统通常从大规模语料库中检索相关段落,然后使用机器阅读理解技术从最相关的段落中提取正确答案。该方法忽略了其他段落中存在的丰富信息。此外,远程监控数据在训练数据中不可避免地会遇到标签错误的问题,这些噪声数据将继续降低dsqa系统的性能。为了解决这些问题,我们提出了一种新的直接序列质量保证系统,它使用段落选择器来过滤那些有噪声的段落。同时,一个段落阅读器被提议从那些干净的段落中提取正确的答案。在真实场景数据集上的实验结果表明,该模型能够从噪声数据中获取有用的信息,比现有的直接序列质量保证系统获得更好的结果。

导言:

阅读理解旨在解决文档中的问答任务,已成为自然语言处理搜索任务的焦点技术。许多阅读理解系统已经开发出来,并取得了巨大的潜在成果。这些系统通常基于多层神经网络和注意机制。在某种程度上,机器阅读理解已经显示了它的力量,能够阅读、处理和理解自然语言文本。

从陈等人(2017年)提出的直接质量保证系统来看,系统返回的结果经常受到噪声数据的影响,例如:

问:哪个国家发布资本?

答案1:都柏林是爱尔兰最大的城市...

解决方法:这是从文档中检索到的都柏林对齐的段落。显然,这并没有给出这个问题的正确答案。

答案2:都柏林是爱尔兰的首都。...

我们已经从上面检索到的段落中看到了正确的答案,但是在这段文字中同时有许多不相关的标记,也就是说,在返回的结果中有一定的噪声。

针对上述问题,研究人员做了一些进一步的工作:

1 . Chietal(2017)将答案生成过程分解为两个模块:目标段落检索和答案提取

2.王等人(2018a)使用强化学习来联合训练目标段落和答案抽取

上述工作只是从最相关的段落中提取答案,这将在很大程度上丢失被忽略段落之间的信息。事实上,这个正确答案通常分布在几个段落中。因此,王等人(2018b)提出从多个段落中提取证据集,对它们进行排序,然后提取答案。这种方法基本上没有解决噪声数据的影响。

为了解决这个问题,我们提出了一个粗到精的去噪模型(粗到精的降噪模型?)如下:

开放耳机如何降噪

上图是本文提出的dsqa系统的新版本。分析:

1.从大规模语料库中检索段落

2.使用快速段落选择器粗略阅读上面检索到的所有段落,并过滤掉噪音。

3.应用precisionparagraph reader阅读所选段落并提取答案。

4.整合所有选定段落的导出结果。。。)

方法:

第一部分:段落选择器计算给定问题的概率分布和检索到的段落集,如下所示:

第二部分:段落阅读机给定问题Q和段落p(i),段落阅读机使用多层LSTM计算提取答案A的概率分布,如下所示:

每段的问答概率

一般来说,提取答案的概率公式如下:

每个段落的答案概率*该段落在所有检索段落中的概率

第三段在填充前通过

实验结果:

开放耳机如何降噪

分析:本文的方法在5个数据集上取得了最好的结果,因为考虑了段落之间的信息。

开放耳机如何降噪

分析:本文中的段落过滤器可以更好地确定哪些标记与答案匹配,并且它确实回答了问题。方法是联合训练段落过滤器和段落阅读器。

开放耳机如何降噪

分析:以上段落按照段落过滤器的输出概率分布排序,粗体是答案。

大家都在看

相关专题