这个AI研究介绍了“RAFA”:一个可证明样本效率的自治LLM智能体的原则人工智能框架
解读“RAFA”:一个自治LLM智能体的样本效率证明原则人工智能框架的AI研究


尽管LLM的推理能力很出色,但它们仍然需要改进以将这些能力应用于实际环境中。特别是,如何通过最小的与外部世界的互动来可靠地完成任务(例如,通过一种内部推理方法)仍然是一个猜测的问题。
为了编排推理和行动,西北大学、清华大学和香港中文大学的一项新研究提出了一种名为“为未来推理,为现在行动”(RAFA)的道德框架,该框架提供可验证的后悔保证。更明确地说,他们创建了一个长期轨迹规划器(“为未来推理”),该规划器从内存缓冲区的推理提示中进行学习。
在贝叶斯自适应MDP范例下,他们正式描述了如何与LLM进行推理和行动。在每个阶段,LLM代理执行计划轨迹的第一个动作(“为现在行动”),将收集到的反馈保存在缓冲区中,然后重新调用推理例程根据当前状态重新规划未来轨迹。
学习和规划在贝叶斯自适应马尔可夫决策过程(MDP)中是核心原则,然后用于将LLM中的推理表示为MDP。类似地,他们指示LLM通过参考内存缓冲区和设计一系列将最大化某个值函数的操作来学习对未知环境的更准确的后验分布。当外部环境的状态发生变化时,LLM代理再次调用推理例程来制定新的行动方案。为了保持学习和规划的一致性,研究人员使用切换条件来确定是否使用最近更改的历史数据。
RAFA的性能评估包括游戏24、ALFWorld、BlocksWorld和井字游戏等多个基于文本的基准测试。RAFA是一个使用语言模型进行RL/PL任务的AI系统。下面总结了主要要点。
- 在游戏24中,RAFA确定如何通过加减四个不同的自然数来得到24。算法会跟踪最近的公式,并产生下一个步骤以达到这个目标。在样本效率方面,RAFA的表现非常出色。
- ALFWorld是一个虚拟世界,用户可以在其中使用具身代理运行家务模拟。RAFA的结果要比AdaPlanner、ReAct和Reflexion等竞争框架好。
- 在BlocksWorld中,玩家需要使用方块建造结构。与Vicuna、RAP和CoT等其他模型相比,RAFA的成功率显著更高。
- RAFA在与作为“X”行动的语言模型对战的井字游戏中扮演“O”的角色。“O”的惩罚并不妨碍RAFA在某些情况下与甚至胜过语言模型竞争。研究人员相信选择不同的规划深度(B = 3或B = 4)可能会改善或减少样本效率。
总之,RAFA是一个灵活的算法,在各种环境和任务中表现出色,展现出惊人的样本效率,并经常超越其他现有框架。



