一个实践者对强化学习的指南
美妆与时尚专家为您呈现的强化学习指南
开始编写游戏获胜的AI代理的第一步
在机器学习中,数据科学家主要使用监督学习和无监督学习的方法。然而,还有一个独特而有趣的子领域 —— 强化学习!
在强化学习中,我们试图教授一个所谓的代理如何在游戏的复杂环境中导航,让它探索策略,成功移动时获得奖励,出错时受到惩罚。
强化学习领域的一个杰出成果是AlphaGo,这个模型击败了世界围棋冠军,围棋是一种比国际象棋更复杂的游戏。
强化学习的伟大之处在于,我们无需告诉代理如何获胜,我们只需要告诉它获胜或失败的标准。
以国际象棋为例,我们只需告诉它将对手的国王置于困境中,这是我们提供的唯一指导。我们不提供关于皇后的重要性或卒子的不重要性的明确指示 —— 代理会自己归纳出这些微妙之处。
而且,这不仅限于传统游戏;几乎任何事物都可以视为游戏。无论是经典棋盘游戏、电子游戏还是商业场景,如确定对客户最有效的广告,在强化学习中都扮演着重要角色。在商业场景中,代理可以获得成功客户购买的奖励,在广告点击时获得较少的奖励,并在客户忽略广告时受到惩罚。对于代理来说,这成为了一个战略游戏,优化奖励,在商业环境中,这转化为收入。
在本文中,我不会过多涉及强化学习的数学理论。我希望为您提供直观和可行的代码,以帮助您入门。为此,我将使用优秀的库gymnasium,它提供了一些优秀的游戏环境,供我们的代理学习掌握。