DeepMind研究人员通过精确的数学定义重新定义了持续性强化学习
DeepMind重新定义了持续性强化学习
最近深度强化学习(RL)的进展已经展示了人工智能(AI)代理在各种令人印象深刻的任务上的超人表现。实现这些结果的当前方法是开发一个主要学习如何掌握感兴趣的狭窄任务的代理。未经训练的代理必须经常执行这些任务,而且不能保证它们会推广到新的变化,即使对于一个简单的RL模型也是如此。相反,人类在他们的一生中不断获取知识并推广以适应新的情景。这被称为连续强化学习(CRL)。
在RL中,学习的观点是代理与马尔可夫环境交互以有效地识别最优行为。寻找最优行为将终止学习的点。例如,想象一下玩一个预定义的游戏。一旦你掌握了游戏,任务就完成了,你就停止了学习新的游戏场景。人们必须将学习视为无止境的适应,而不是将其视为寻找解决方案。
连续强化学习(CRL)就涉及这样的研究。它是一种监督的、永无止境的、持续的学习。DeepMind的研究人员以两步方式形式化代理的概念。一是将每个代理视为隐式搜索一组行为,另一个是每个代理要么继续搜索下去,要么最终在一种行为选择上停止。研究人员将与代理相关的一对生成器定义为生成到达操作符。通过使用这种形式主义,他们将CRL定义为一个RL问题,其中所有代理都不会停止他们的搜索。
- 使用LLMs和Hugging Face构建您自己的翻译器
- 在媒体中检测酒精暴露:评估CLIP的零样本学习与ABIDLA2深度学习在图像分析中的能力
- 这篇人工智能论文介绍了稳定签名:一种结合图像水印和潜在扩散模型的主动策略
构建神经网络需要一个具有其元素的权重分配的基础,并且需要一个用于更新基础的活跃元素的学习机制。研究人员说,在CRL中,网络的参数数量受到我们可以构建的限制,学习机制可以被视为随机梯度下降,而不是一种在无约束方式下搜索基础的方法。在这里,基础不是任意的。
研究人员选择一类作为行为表示的函数,并利用特定的学习规则以期望的方式对经验进行反应。函数类的选择取决于可用的资源或内存。随机梯度下降方法更新当前基础的选择以提高性能。虽然基础的选择不是任意的,但这涉及到代理的设计以及环境所施加的约束。
研究人员声称进一步研究学习规则可以直接修改新学习算法的设计。对连续学习规则族的表征将保证连续学习代理的产出,并可以进一步用于指导原则性的连续学习代理的设计。他们还打算进一步研究诸如可塑性损失、上下文学习和灾难性遗忘等方法。