亚马逊免费开源_ 超470万单词!亚马逊开源最大社交对话数据集

前几天,亚马逊在GitHub上发表了超过470万个词汇的21万个语料库,主张该数据集支持“高品质”和“可重复”对话系统的研究,成为研究界可以公开的最大的知识库社交对话数据集。

GitHub :

https://github.com/Alex/Alex-prize-topical-chat-dataset /

亚马逊免费开源

amaxal公司

亚马逊于今年4月向参加alexprizesocialbotgrandchallenge竞赛的团队发表了对话数据集。

此次亚马逊发表的数据集,各语料库的对话和对话与提供给一般承包商的知识有关,该知识是从与一系列实体相关的一系列“非结构化”和“稀疏结构化”文本资源中收集的。

亚马逊高级科学家Dilek Hakkani-Tur在博客文章中指出,没有从与Alexa客户的交流中收集到资料。

该数据库是实现基于知识的神经反应生成系统的后续研究,解决了其他公开数据集无法解决的自然对话中的课题。

这样,研究人员就可以着眼于对话中主题和知识选择的转变,以及如何将事实和观点纳入对话中

为了编译语料库,Hakkani-Tur和同事根据Alexibleprze对话中常见的八个不同主题类别确定了300个命名实体。

根据实体在信息源中的共存情况,这些实体被分组为三个组,为群集中的每个实体收集多个附加信息源,并按群集进行划分。

然后,这些数据被交给亚马逊的Mechanical Turk的大众工作人员,他们有时收到同样的信息,有时只得到一部分信息。

Alexa AI团队可以划分数据,使匹配的员工获得补充知识。

要构建主题聊天数据集,Mechanical Turk招聘的员工参与即时消息对话,并使用从非结构化或稀疏化资源集合中提取的信息支持意见。

根据研究人员的指示,这些工作人员就所收到的知识进行即时交流对话。

关于收到的所有信息,被要求指出信息的来源,测定收到的信息的感情,评价聊天伙伴的品质。

其次,手动和自动审查相结合减少了对话。

Hakkani-Tur说:“希望研究人员关注话题、知识选择、知识丰富度之间的变化,关注将事实和观点纳入对话的方式,支持出版高品质、可重现的研究成果。”

大家都在看

相关专题