遇见尤里卡:由大型语言模型(LLMs)驱动的人类级奖励设计算法

遇见尤里卡:由人类级奖励设计算法驱动的大型语言模型(LLMs)

大型语言模型(LLMs)在高级规划方面表现出色,但需要帮助掌握低级任务,如旋转笔技巧。然而,NVIDIA、UPenn、Caltech和UT Austin的研究人员开发了一种名为EUREKA的算法,该算法使用先进的LLMs(例如GPT-4)通过强化学习为复杂技能习得创建奖励函数。通过基于人类反馈的无梯度、上下文学习,EUREKA通过提供更安全、更高质量的技巧,胜过人为设计的奖励。这一突破为LLM驱动的技能习得铺平了道路,正如模拟的Shadow Hand掌握旋转笔技巧所示。

在强化学习中的奖励工程提出了挑战,现有方法如手动试错和逆向强化学习需要更高的可伸缩性和适应性。EUREKA提出了一种方法,利用LLMs生成可解释的奖励代码,在实时中提升奖励。虽然之前有人探索过LLMs用于决策,但EUREKA在应用于低级技能学习任务方面是开创性的,为奖励设计引入了具有LLMs的进化算法,而无需初始候选或少量提示。

LLMs在高级规划方面表现出色,但在旋转笔等低级技能方面需要帮助。强化学习中的奖励设计通常依赖耗时的试错。他们的研究提出了EUREKA,利用先进的编码LLMs(如GPT-4)自主创建各种任务的奖励函数,胜过不同环境中人为设计的奖励。EUREKA还通过人类反馈进行上下文学习,提升奖励质量和安全性。它解决了通过手动奖励设计无法获得的灵巧操纵任务的挑战。

EUREKA是由GPT-4等LLM推动的算法,自主生成奖励函数,在29个强化学习环境中表现出色。它利用来自人类反馈的上下文学习(RLHF)提升奖励质量和安全性,无需模型更新。EUREKA的奖励能够训练模拟的Shadow Hand进行旋转笔和快速笔操作。它在奖励设计中为LLMs引入了进化算法,消除了初始候选或少量提示的需求,标志着强化学习的重大进展。

EUREKA胜过L2R,展示了其奖励生成的表达能力。EUREKA不断改进,其最佳奖励最终超过人类基准。它创造了与人类奖励弱相关的独特奖励,可能揭示了违反直觉的设计原则。奖励反射提升了高维任务的性能。与课程学习相结合,EUREKA成功地利用了模拟Shadow Hand进行灵巧的旋转笔技巧。

EUREKA是由LLMs驱动的奖励设计算法,实现了人类水平的奖励生成,在83%的任务中表现出色,平均改进了52%。将LLMs与进化算法结合使用证明了一种多功能且可扩展的奖励设计方法,适用于具有挑战性和开放性问题。EUREKA在灵巧性方面的成功表现在使用课程学习解决复杂任务,如灵巧的旋转笔技巧上。它的适应性和显著的性能提升为多样化的强化学习和奖励设计应用提供了有希望的方向。

未来的研究方向包括评估EUREKA在更多不同和复杂的环境中以及不同的机器人设计中的适应性和性能。评估其在仿真之外的现实世界应用性至关重要。探索与强化学习技术的协同作用,如基于模型的方法或元学习,可以进一步提升EUREKA的能力。研究EUREKA生成的奖励函数的可解释性对于理解其基础决策过程至关重要。增强人类反馈整合并探索EUREKA在除机器人学之外的各个领域的潜力是有希望的方向。