这篇AI论文介绍了Lemur和Lemur Chat,用于使自然语言和代码相协调,用于语言代理人

AI论文介绍Lemur和Lemur Chat:实现自然语言与代码协调,打造智能语言助手

在广义上,智能代理是拥有感知、判断和行动能力的自主问题解决者,这些能力是基于从周围环境中收集的数据所建立的。最近对这一理念的应用表明,在使用大型语言模型(LLM)构建这些代理时,可以在各种情境中完成各种复杂任务的自然语言代理的发展前景十分光明。这尤其体现在这些代理是利用LLM的人类专业知识来模仿人类的思维和语言。这使得人们可以在使用工具方面灵活应用、适应新的情况、以语言进行推理,并即兴开发多代理系统。

LLM应该掌握人类互动、推理和规划,并确保在必要环境中获得正确的上下文以正确构建语言代理的基础。LLM的自然语言能力使它们能够紧密模拟人类的对话、思考和规划。然而,基于环境的执行通常通过通用代码或特定领域的API实现,例如用于管理Web浏览器、与操作系统命令行界面终端通信和控制机械臂的API。

为了填补这一空白,香港大学、XLang Lab、Salesforce研究部、Sea AI Lab、华盛顿大学和MIT CSAIL的一项新研究提出了两个最先进的可公开使用的模型Lemur和Lemur-Chat,这两个模型经过预训练和微调,以实现文本和代码之间的协调。通过精心设计的预训练和指导微调步骤,研究人员改进了原始的Llama-2-70B模型。为了确保在编码能力方面具有增强的能力,同时保持在自然语言能力方面的性能,他们构建了一个基于“The Stack”的以代码为中心的语料库,其中包含900亿个token,文本与代码的比例为10:1。这个原型被称为Lemur。为了创建指令遵循模型Lemur-Chat,他们首先使用约10万个文本和代码实例对其进行了预训练。通过对8个文本和代码基准进行了广泛的测试,Lemur和Lemur-Chat被证明是最全面的开源模型。

此外,这项工作旨在为各种环境中评估语言代理的核心能力提供代理标准。团队特别关注代理工具的技能,以及它们在环境和社交反馈中扎根的能力。他们还研究了实际中固有的困难,即代理在基于不完整信息的情况下必须进行操作并执行额外的动作来填补空白。实验结果显示,与其他开源模型相比,Lemur-Chat在13个代理基准中有12个表现更好。这说明Lemur-Chat如何通过将自然语言和编码能力结合起来,填补开源和商业替代方案之间的性能差距,从而超越现有的开源模型,成为综合能力最强的开源模型。

这些测试结果证明了在基于代理的环境中结合语言和计算能力的重要性。像Llama-2-70B-Chat这样在自然语言处理方面表现出色但在编码方面表现较差的模型,可以高效使用基本工具来辅助推理,因为动作空间是受限制的,并且使用这些工具的努力较小。相反,当面临诸如网络浏览和家庭导航等复杂的决策场景时,动作空间通常非常庞大,具有较高编码能力的模型在构建复杂的可执行动作序列时具有优势。总之,Lemur的卓越性能归功于其自然语言处理和编程能力的优势。本研究为创建在各种环境中运行良好的复杂语言代理奠定了基础,通过揭示优化自然语言和编程语言之间的协同作用的方法来实现这一目标。