腾讯利用AI系统的MOBA,详细介绍了如何打败99.81%的人类对手
据外媒报道,8月,腾讯宣布在国王的荣耀(或者勇敢的竞技场,依赖地区)的五比五比赛中,开发了打败职业选手队伍的人工智能系统。
这是值得关注的成果,国王的荣誉占据了被称为多人在线战斗竞技场游戏( MOBA )的视频游戏的子类型,从玩家不知道其他玩家选择的动作的观点来看是不完整的信息游戏。 因此,最终结果不仅可以用于获得超级英雄性能的Kings AI荣誉,还可以用于开发能够解决社会最严峻挑战的系统。
本周发表的论文揭露了腾讯技术的各个层面,作者称之为“高度可扩展”。 他们主张,这种崭新的战略可以通过演员的批判体系“有效”地探索游戏地图,自我改善列车。 随着时间的推移。
正如研究人员指出的那样,与以往的主板游戏和实时游戏相比,像Honors of Kings这样的实时战略游戏需要高度复杂的动作控制。 他们的环境更加复杂(国王的荣誉有10 ̄600个可能的状态和10 ̄18000个可能的动作),目标总体上更加复杂。 代理人不仅要学会计划、攻击和防御,还要控制技能连击,引导和欺骗对方。 同时,也要对抗小兵和全自动炮塔等危险。
腾讯的体系结构包括四个模块:强化学习( RL )学习器、人工智能( AI )服务器、调度模块和内存池。
由于多种精巧的压缩,在单一处理器核心上执行的AI伺服器会决定AI模型如何与游戏环境中的物件互动。 ut根据自己在游戏中生成故事,从游戏状态中提取的功能,预测玩家的行为,转发到游戏核心进行执行。 然后,游戏中心将返回到下一个状态及其相应的奖励值,或者将模型推进到达“王荣誉”目标的值。
调度模块捆绑在同一台计算机上的多台AI服务器上,在压缩并发送到内存池之前,它会收集激励、功能、操作概率等数据样本。 内存池(服务器)支持不同长度的采样和基于生成时间的数据采样,并实现了循环队列结构以执行高效的数据存储操作。
最后,“强化学习者”(分布式培训环境)通过上述行为者的批判方法加快政策更新。 多个强化学习者从内存池中并行获取数据,并使用共享内存进行通信。 一方的机制(目标注意力)有助于选择敌人的目标,另一方的机制LSTM (学习长期依赖关系的算法)对于教英雄玩家组合技能,给予“严重”的伤害很重要。
腾讯研究人员系统对图像特征和游戏状态信息进行编码,用数字表示各单位和敌人的目标。 动作面具巧妙地结合了经验丰富的人类玩家的先验知识,防止AI穿越游戏地图的物理“禁区”(例如,具有挑战性的地形)。
在实验中,本文的作者总共在600,000个核心和1,064个图形卡( Nvidia Tesla P40和Nvidia V100的混合物)上运行该框架,处理了包含16,000个隐藏单位属性和游戏信息的功能。 培训英雄需要48张显卡和18,000个处理器内核,每卡的速度约为80,000个样本。 每天进行集体训练,该系统积累了相当于500年人的经验。
据合作者介绍,AI的Elo得分来源于计算零和游戏中玩家相对技能水平的系统,随着训练的增加,这并不令人惊讶。 研究人员表示,它在80小时内比较稳定,仅30小时内就打破了人类最高荣誉玩家中前1%的玩家。
系统每隔133毫秒或每隔最高级业馀播放器响应时间对AI模型执行一次操作。 包括“QGhappy.Hurt”、“WE.762”、“TS.NuanYang”、“QGhappy.Fly、eStarPro.Ca”以及参加比赛的玩家“多样性”从8月2日到8月5日在上海召开的ChinaJoy 2019大会在内的5名玩家对战
研究人员表示,尽管eStarPro.Cat在法师型英雄方面很优秀,但AI每次平均被杀5次,平均被杀1.33次。 公开赛中,2100场比赛的优胜率为99.81%,8位AI支配的英雄中,5位的优胜率为100%。
腾讯研究人员表示,他们将在不久的将来开放其框架和算法,实现“荣耀之王”等复杂游戏的研究。 他们不是唯一的计划,也不是已经这样的人-DeepMind的阿尔法斯特打败了人类明星霸权2玩家的99.8%,与此相对,OpenAI Five的OpenAI Five框架在公开比赛中两次打败了队伍。