“阿法狗”旁边歇歇,麻将新人王“超级凤凰”,你赢得了吗?

去年8月底的世界人工智能大会上,微软亚洲研究院研发的麻将AI“Suphx(意为Super Phoenix,超级凤凰)”公开亮相。时隔大半年,微软团队近日发布了一份修订版预印本文件,对Suphx进行了全面介绍,并在昨天下午3时30分邀请两位研究员在线直播,首次披露了麻将AI细节。研究人员介绍说,“超级凤凰”是一个专业十段水平的“选手”,但是,它的技术或能应用于金融预测、物流优化等。

据介绍,此次公布的核心技术细节包括了Suphx背后的包括决策流程、模型架构、训练算法等。

阿法狗

△直播主页截屏,微软亚洲研究院的研究员在线直播介绍麻将AI超级凤凰诞生的技术细节

01

“段位”超越99%人类玩家

在去年公开亮相之前,“超级凤凰”其实已在日本专业麻将平台“天凤(tenhou.net)”上战果累累。在该平台的公开房间比赛中,它的实力超过了顶级人类选手的平均水平,成功晋级专业十段。而天凤平台上超过35万的活跃玩家中,只有不到1%的玩家达到了专业7段及以上的高手水平。从天凤玩家段位分布来看,“超级凤凰”的成绩超过了99.99%的天凤玩家。这是计算机程序首次超过麻将中大多数顶级人类玩家。

麻将是起源于我国的大众娱乐项目,光是在亚洲地区就拥有上亿玩家。然而,麻将虽然入门容易,但要真正精通麻将却十分困难。与象棋、围棋等棋类相比,麻将在游戏对弈的过程中存在大量隐藏信息,具有高度的不确定性。这就意味着它的复杂度远高于其他棋类,对AI技术存在着特殊挑战。在昨天的直播中,研究人员透露,尽管深度强化学习在一系列游戏AI中取得了巨大的成功,但想要将其直接应用在麻将AI上殊为不易,面临着若干挑战,比如,麻将复杂的积分规则、决策等。

02

“先知”训练让AI更强大

面对麻将这样存在高度不确定性的游戏对弈,研究员们开发了丢牌模型立直模型吃牌模型碰牌模型以及杠牌模型等5大模型,专门训练“超级凤凰”的打牌策略。这五大模型都基于深度残差卷积神经网络,并一一应对麻将复杂的决策类型。甚至,“超级凤凰”还有一个基于规则的赢牌模型,决定在可以赢牌的时候要不要赢牌。

阿法狗

△直播主页截屏

麻将中存在着丰富的隐藏信息,比如,其他玩家的手牌、墙牌等,这也是麻将很难的一个根本原因。在这种情况下,虽然“超级凤凰”可以通过强化学习来提高策略,但学习速度会非常慢。于是,研发团队就研发了一个“先知”教练,这个“先知”可以看到包括玩家、对家、公共信息等所有的信息。但是,“先知”训练并不是“作弊”:“先知”凤凰在进行强化学习训练后,研究人员会逐步控制“先知”的学习进度,再逐渐对完美特征增加mask逐渐使“先知”最终过渡到正常AI。

此外,由于“超级凤凰”整个训练过程十分复杂,需要多个GPU和多CPU协同,研发团队还采用了分布式架构来支持这种训练。

03

未来不仅仅会打麻将

在去年的世界人工智能大会上,时任微软全球副总裁沈向洋就曾提到,游戏一直是人工智能研究的最佳试验田,训练游戏AI的过程可以不断提升人工智能的算法和人工智能处理复杂问题的能力。

在现实世界中,金融市场预测、物流优化等很多问题与麻将游戏有着相同的特点,包括复杂的操作/奖励规则、信息的不完全性等等。Suphx的未来将不仅仅是一个胡牌“莫得感情”的麻将AI,它背后的全局奖励预测、先知引导和参数化策略自适应等技术,在现实世界的应用中将大有可为。海岸君从微软亚洲研究院了解到,该研究院正在积极推动这些技术的外延及落地,帮助人们解决更加错综复杂的现实挑战。

孙俪发长文为女儿庆生 只字未提老公邓超吃醋大数据也看好巴西夺冠? 足彩界“阿法狗”给出答案
热门推荐
  • 青岛到济南多少公里_烟台到济南多少公里
  • 5g用不用换手机_5g不用换手机
  • 西班牙4月中旬天气
  • 中国保险投资基金_中国保险控股有限公司
  • 中文在线股吧_中文在线重组最新消息
  • 闫妮演的电影_闫妮怎么减肥成功的
  • 刷脸支付怎么用的_ 为什么支付宝要推刷脸支付?安全性又如何?
  • 公积金贷款归档多久_公积金贷款计算器
  • 足球中的帽子戏法_足球大四喜
  • 畜牧兽医论文3000_中国畜牧兽医
  • 王小玮王小海综芝节目_王小海和王小玮接吻
  • 飞鹰女侠2_飞鹰女侠
  • 2018小米笔记本air13.3_小米air13.3怎么样
  • 磁力下载工具utorrent 免安装_女性自制自熨工具
  • 北京大学官网孔庆东_北大教授孔庆东被开除 视频
  • 幼儿园心愿卡内容_幼儿园宝宝心愿卡内容
  • 双十一消费额多少了_ 1/3中国人将参与今年天猫双11:新消费带来内需新动能
  • 中原万达广场招聘_中原万达广场图片
  • 大美兔是谁
  • 月底总结_月底总结范文