“Sb3,应用强化学习的瑞士军刀”

SB3:打磨强化学习的瑞士军刀

您选择的模型,适用于任何环境

由 DALL · E 3 基于提示“创建一个看起来逼真的打开的瑞士军刀的图像”创建的图像

Stablebaseline3 (sb3) 就像一把瑞士军刀,它是一个多功能工具,适用于多种目的。就像一把瑞士军刀可以在你被困在丛林中时救你一命一样,在你办公室中面临看似不可能的截止日期时,sb3 可以挽救你的生命。

本指南使用 gymnasium=0.28.1 和 stable-baselines=2.1.0。如果您使用不同版本,或者参考其他旧的指南,可能无法获得以下结果。但不要担心,这里也提供了安装指南。只要按照我的说明操作,我保证您可以获得所需的结果。

【1】您将在这里获得什么

Stablebaseline3 很容易使用。它也有很好的文档,您可以按照自己的步骤进行学习。但是…

  • 您会参考旧的指南(可能使用gym),只发现在您的计算机上出现错误吗?
  • 您能始终确保兼容性吗?
  • 如果您想使用gymnasium的环境,并可能修改奖励,该怎么办?
  • 您知道如何封装自己的任务,以便在几行代码中应用 SOTA 模型吗?

这就是本文的目标!阅读完这个指导性示范后,您将能够…

  1. 使用 sb3 模型解决经典环境,可视化结果,并在几行代码中保存(或加载)已训练的模型。【第3.1节】
  2. 了解如何检查动作空间和观测空间的兼容性。【第3.2节】
  3. 学习如何封装gymnasium环境,以使任何 sb3 模型均可使用,无需限制boxdiscrete【第4.1节】
  4. 学习如何封装gymnasium环境来进行奖励形状设计。【第4.2节】
  5. 学习如何封装您自己的自定义环境,以使其与 sb3 兼容,而对您原始代码的更改最小。您的原始代码可能遵循不同的结构。【第5节】

【2】安装

创建一个虚拟环境并设置相关依赖项。我迎合大多数使用 Windows 的用户——在这里,指南是使用 Windows 创建的…