< p >
前言
在之前,本期有一篇关于用Python编写“拿石头”游戏的文章,这是一个允许你玩电脑的小游戏,但是电脑玩家的选择是随机的,这意味着你在玩一台智力迟钝的电脑。
今天,我们更进一步,编写程序使这台智力迟钝的计算机能够持续地玩“拿石头”游戏,并最终学会如何赢得游戏。不仅如此,我们还可以通过这个训练有素的电脑玩家了解赢得比赛的秘密(在文章的结尾)现在请看示意图
电脑自我训练
< p >玩电脑
高能预警与之前的文章不同,本文需要在强化学习中实现一个小算法。然而,这种算法并不难,可以广泛应用于其他同类游戏问题,让你做出有趣的事情。我们开始吧。
以上所有实现都在模型中。有兴趣的朋友可以去github看看。
要点描述
机器学习程序和普通应用程序开发程序有什么区别?就像本文的实现一样,程序的逻辑方向不是由我们编写代码的方式决定的,而是由数据决定的。
下面将简要说明整个过程的关键点
问题是,您是如何以这种形式获得价值数据的?是的,这是让他不断与自己战斗以获得经验让我们分析这场战斗的过程
当然,在第一次培训期间,不会对以后的记录进行任何更新。直到奖赏或惩罚得到满足下图显示了这种情况
让我们看看在那之后他是如何得到下面一行的分数的。假设我们已经训练了几轮,表格顶部的行得分为256以上
游戏中胜利的秘密
摘要
本文在最简单的强化学习中使用了Q-Table机制,让计算机学会自己玩游戏。这是一个非常适合开始的例子(他需要你修改查询表方法)
在之后,我将改进游戏并使用不同的机器学习方法来实现这些功能。请期待它
如果你认为这篇文章对你有帮助,记得注意,评论,转发和收集哦~