亚马逊免费开源_ 超470万单词！亚马逊开源最大社交对话数据集

前几天，亚马逊在GitHub上发表了超过470万个词汇的21万个语料库，主张该数据集支持“高品质”和“可重复”对话系统的研究，成为研究界可以公开的最大的知识库社交对话数据集。

GitHub :

https://github.com/Alex/Alex-prize-topical-chat-dataset /

亚马逊免费开源

amaxal公司

亚马逊于今年4月向参加alexprizesocialbotgrandchallenge竞赛的团队发表了对话数据集。

此次亚马逊发表的数据集，各语料库的对话和对话与提供给一般承包商的知识有关，该知识是从与一系列实体相关的一系列“非结构化”和“稀疏结构化”文本资源中收集的。

亚马逊高级科学家Dilek Hakkani-Tur在博客文章中指出，没有从与Alexa客户的交流中收集到资料。

该数据库是实现基于知识的神经反应生成系统的后续研究，解决了其他公开数据集无法解决的自然对话中的课题。

这样，研究人员就可以着眼于对话中主题和知识选择的转变，以及如何将事实和观点纳入对话中

为了编译语料库，Hakkani-Tur和同事根据Alexibleprze对话中常见的八个不同主题类别确定了300个命名实体。

根据实体在信息源中的共存情况，这些实体被分组为三个组，为群集中的每个实体收集多个附加信息源，并按群集进行划分。

然后，这些数据被交给亚马逊的Mechanical Turk的大众工作人员，他们有时收到同样的信息，有时只得到一部分信息。

Alexa AI团队可以划分数据，使匹配的员工获得补充知识。

要构建主题聊天数据集，Mechanical Turk招聘的员工参与即时消息对话，并使用从非结构化或稀疏化资源集合中提取的信息支持意见。

根据研究人员的指示，这些工作人员就所收到的知识进行即时交流对话。

关于收到的所有信息，被要求指出信息的来源，测定收到的信息的感情，评价聊天伙伴的品质。

其次，手动和自动审查相结合减少了对话。

Hakkani-Tur说:“希望研究人员关注话题、知识选择、知识丰富度之间的变化，关注将事实和观点纳入对话的方式，支持出版高品质、可重现的研究成果。”