亚马逊免费开源_ 超470万单词!亚马逊开源最大社交对话数据集

前几天,亚马逊在GitHub上发表了超过470万个词汇的21万个语料库,主张该数据集支持“高品质”和“可重复”对话系统的研究,成为研究界可以公开的最大的知识库社交对话数据集。

GitHub :

https://github.com/Alex/Alex-prize-topical-chat-dataset /

亚马逊免费开源

amaxal公司

亚马逊于今年4月向参加alexprizesocialbotgrandchallenge竞赛的团队发表了对话数据集。

此次亚马逊发表的数据集,各语料库的对话和对话与提供给一般承包商的知识有关,该知识是从与一系列实体相关的一系列“非结构化”和“稀疏结构化”文本资源中收集的。

亚马逊高级科学家Dilek Hakkani-Tur在博客文章中指出,没有从与Alexa客户的交流中收集到资料。

该数据库是实现基于知识的神经反应生成系统的后续研究,解决了其他公开数据集无法解决的自然对话中的课题。

这样,研究人员就可以着眼于对话中主题和知识选择的转变,以及如何将事实和观点纳入对话中

为了编译语料库,Hakkani-Tur和同事根据Alexibleprze对话中常见的八个不同主题类别确定了300个命名实体。

根据实体在信息源中的共存情况,这些实体被分组为三个组,为群集中的每个实体收集多个附加信息源,并按群集进行划分。

然后,这些数据被交给亚马逊的Mechanical Turk的大众工作人员,他们有时收到同样的信息,有时只得到一部分信息。

Alexa AI团队可以划分数据,使匹配的员工获得补充知识。

要构建主题聊天数据集,Mechanical Turk招聘的员工参与即时消息对话,并使用从非结构化或稀疏化资源集合中提取的信息支持意见。

根据研究人员的指示,这些工作人员就所收到的知识进行即时交流对话。

关于收到的所有信息,被要求指出信息的来源,测定收到的信息的感情,评价聊天伙伴的品质。

其次,手动和自动审查相结合减少了对话。

Hakkani-Tur说:“希望研究人员关注话题、知识选择、知识丰富度之间的变化,关注将事实和观点纳入对话的方式,支持出版高品质、可重现的研究成果。”

成贵高铁全线通车车次安排_ 成贵高铁全线开通运营,系世界第一条山区高速铁路炉石巨龙降临12月_《炉石传说》新扩展包“巨龙降临”12月上线 炉石自走棋模式公开
热门推荐
  • 有限责任公司 英文_旅游传媒集团有限责任公司英文
  • 微信四个字的昵称_微信四字昵称大全
  • 抖音怎么关注别人_抖音如何关注好友
  • 小四是几号字_行距20磅是几倍行距
  • 篆书在线转换_篆书快查
  • 广东网红酒店是哪里_广东网红酒店排名
  • 杨幂何以笙箫默为什么短发_杨幂何以笙箫默短发
  • 郑州邮编查询_郑州郑东新区邮编
  • 一个人仰望天空伤感图片_雨景图片伤感一个人
  • 花生除草剂药害_除草剂药害
  • 转子引擎
  • 122与12122的区别_111b与122b的区别
  • 内蒙古二建注册信息查询_内蒙古二建注册查询
  • 红十字基金会捐款账户_艾尔建向中国红十字基金会捐赠100万元支持一线医护人员抗击疫情
  • 当洪抛弃了她美丽的妻子,嫁给了一个丑陋的女人,她就像一样出名,现在没人搭理她了。
  • 论文研究思路_论文研究思路流程图
  • 订单状态
  • 裤兜语文传销_2018区块链大传销 您上当了吗
  • 脸部皮肤过敏红痒_皮肤过敏红痒
  • 名门夫人宠妻成瘾_名门挚爱帝少的千亿宠儿