加州大学伯克利分校的研究人员引入了视频预测奖励(VIPER):一种利用预训练的视频预测模型作为无动作奖励信号的强化学习算法

Researchers at the University of California, Berkeley have introduced the Video Prediction Reward (VIPER) algorithm.

通过手动设计奖励函数耗时且可能导致意想不到的后果。这是开发基于强化学习(RL)的通用决策制定代理的主要障碍。

先前的基于视频的学习方法会奖励那些当前观察最接近专家观察的代理。由于奖励仅基于当前观察,它们无法捕捉到整个时间段的有意义活动。而且对抗性训练技术会导致模式崩溃,从而阻碍泛化。

加州大学伯克利分校的研究人员开发了一种从视频预测模型中提取激励的新方法,称为视频预测增强学习激励(VIPER)。VIPER可以从原始影片中学习奖励函数,并推广到未经训练的领域。

首先,VIPER使用专家生成的影片来训练预测模型。然后,使用视频预测模型来训练强化学习代理,以优化代理轨迹的对数似然。代理的轨迹分布必须最小化,以与视频模型的分布相匹配。通过直接使用视频模型的似然作为奖励信号,可以训练代理遵循类似于视频模型的轨迹分布。与观测级别的奖励不同,视频模型提供的奖励量化了行为的时间一致性。这还允许更快的训练时间和更大的与环境的交互,因为评估似然比执行视频模型要快得多。

在15个DMC任务、6个RLBench任务和7个Atari任务中,研究团队进行了全面的研究,并证明VIPER可以在不使用任务奖励的情况下实现专家级控制。根据研究结果,经过VIPER训练的RL代理在各个方面都击败了对抗性模仿学习。由于VIPER已集成到设置中,它并不关心使用哪个RL代理。视频模型已经可以泛化到训练期间未遇到的手臂/任务组合,即使在小数据集的情况下也是如此。

研究人员认为使用大型预训练条件视频模型将使更灵活的奖励函数成为可能。借助生成建模的最新突破,他们认为自己的工作为社区提供了一个从未标注的影片中进行可扩展奖励规范的基础。