“Sb3,应用强化学习的瑞士军刀”
SB3:打磨强化学习的瑞士军刀
您选择的模型,适用于任何环境

Stablebaseline3 (sb3) 就像一把瑞士军刀,它是一个多功能工具,适用于多种目的。就像一把瑞士军刀可以在你被困在丛林中时救你一命一样,在你办公室中面临看似不可能的截止日期时,sb3 可以挽救你的生命。
本指南使用 gymnasium=0.28.1 和 stable-baselines=2.1.0。如果您使用不同版本,或者参考其他旧的指南,可能无法获得以下结果。但不要担心,这里也提供了安装指南。只要按照我的说明操作,我保证您可以获得所需的结果。
【1】您将在这里获得什么
Stablebaseline3 很容易使用。它也有很好的文档,您可以按照自己的步骤进行学习。但是…
- 您会参考旧的指南(可能使用
gym),只发现在您的计算机上出现错误吗? - 您能始终确保兼容性吗?
- 如果您想使用
gymnasium的环境,并可能修改奖励,该怎么办? - 您知道如何封装自己的任务,以便在几行代码中应用 SOTA 模型吗?
这就是本文的目标!阅读完这个指导性示范后,您将能够…
- 使用 sb3 模型解决经典环境,可视化结果,并在几行代码中保存(或加载)已训练的模型。【第3.1节】
- 了解如何检查动作空间和观测空间的兼容性。【第3.2节】
- 学习如何封装
gymnasium环境,以使任何 sb3 模型均可使用,无需限制box或discrete。【第4.1节】 - 学习如何封装
gymnasium环境来进行奖励形状设计。【第4.2节】 - 学习如何封装您自己的自定义环境,以使其与 sb3 兼容,而对您原始代码的更改最小。您的原始代码可能遵循不同的结构。【第5节】
【2】安装
创建一个虚拟环境并设置相关依赖项。我迎合大多数使用 Windows 的用户——在这里,指南是使用 Windows 创建的…




