CMU研究人员推出WebArena:一个具有4+个真实世界Web应用的真实可重现的Web环境,用于测试有用代理的基准测试

CMU研究人员推出WebArena:一个具有真实Web应用的Web环境,用于测试代理的基准测试

鉴于提高效率和更广泛的可访问性的潜力,能够通过人类自然语言指令完成常规任务的自主代理可以极大地补充人类技能。为了充分发挥这些独立代理的潜力,了解它们在真实可重复的环境中的行为是至关重要的。

当前的环境往往过于简化复杂的问题。因此,许多环境的特性都是真实世界等效物的简化版本,导致工作种类短缺。在其他情况下,环境被呈现为静态资源,限制了代理人在数据收集期间只能探索那些缓存的状态。

卡内基梅隆大学和Inspired Cognition的新研究提出了WebArena,这是一个模拟的网络环境,可以用于训练自主代理执行特定任务。该环境包括四个实时的自助式Web应用程序,分别用于电子商务、在线讨论论坛、协作软件开发和企业内容管理。WebArena还包括几个有用的工具,包括地图、计算器和草稿本,以促进尽可能接近人类的任务执行。最后,WebArena还有丰富的辅助材料,包括使用集成开发环境和更专门的网站(如英文维基百科)的指南。这些网站的内容直接来自它们的离线对应物,确保准确和更新。使用gym API提供托管服务的Docker容器使WebArena易于使用和可复制。

除了WebArena,他们还开源了一个完全可操作的812个面向未来的基于Web的任务的基准。每个活动都是按照人类通常采用的抽象语言使用模式建模,并被描述为自然语言目标。他们的重点是分析这些功能的工作情况。除了比较简单的操作序列外,这种评估还可以考虑到有时存在多个合法路径达到相同目标的事实(在足够复杂的任务中普遍存在的情况)。

团队利用这个标准来比较多个能够根据自然语言命令执行基于Web的操作的代理的性能。创建这些代理使用了许多不同的方法,从根据当前观察和历史预测下一步的方法到使用更复杂的方法如逐步推理的方法。强大的大型语言模型(LLM)如GPT-3.5和GPT-4使用一种少样本的上下文学习方法创建这些代理。研究结果显示,在实验中,最好的GPT-4代理只能达到总体任务成功率的10.59%。他们假设当前LLM缺乏关键能力,包括主动探索和故障恢复,是导致其无法有效完成复杂任务的根本原因。