亲自动手的深度 Q 学习
亲自动手的深度学习之 Q 系列
强化学习
提升你的代理以赢得更困难的游戏!
强化学习是机器学习中最迷人的领域之一。与监督学习不同,强化学习模型可以独立地学习复杂的过程,即使没有美观的表格化数据。
对我来说,最有趣的是看到AI代理赢得视频游戏,但你也可以使用强化学习来解决业务问题。只要将其表述为一种游戏,你就可以开始了!你只需要定义…
- 你的代理所在的环境,
- 你的代理可以做出的决策,以及
- 成功和失败的表现。

在继续之前,请阅读我的关于强化学习的介绍性文章。它会给你一些更多的背景知识,并向你展示如何自己进行简单而有效的强化学习。它也是本文的基础。
从业者的强化学习指南
迈出你在编写游戏获胜的AI代理方面的第一步
towardsdatascience.com
在本文中,您将了解深度Q学习,为什么我们需要它以及如何自己实现它来掌握一个比我其他文章中更难的游戏。
你可以在我的Github上找到代码 我的Github。
大型观察空间
在上述链接的文章中,我们进行了Q学习,使代理能够玩一些具有小型离散观察空间的简单游戏。以Frozen Lake游戏为例,在4×4的地图上有16个领域(=状态或观察,我从现在开始交替使用这些术语)。在卡片游戏Blackjack的健身房版本中,有32·11·2=704个状态。