斯坦福大学研究人员提出了MLAgentBench:一套用于对比AI研究智能体的机器学习任务集合

美容时尚专家揭示:斯坦福大学研究人员开发出了MLAgentBench,用于比较智能体AI研究的机器学习任务集合

人类科学家可以探索未知的深处,做出各种不确定选择的发现。凭借他们手边的科学知识库,人类研究人员可以探索未知领域,并在此过程中做出突破性的发现。现在的研究正在探讨是否可能建立具有类似能力的AI研究代理人。

开放式的决策和与环境的自由互动给性能评估带来了困难,因为这些过程可能耗时、资源密集且难以量化。

为了评估具有自由决策能力的AI研究代理人,斯坦福大学的研究人员提出了MLAgentBench,这是一种独特的评估标准。MLAgentBench的核心理念是为自主评估研究代理人在明确定义的可执行研究任务上提供一个通用框架。具体而言,为每个研究任务提供任务描述和所需文件列表。具备这些能力的研究代理人可以执行读写文件和运行代码等任务,就像人类研究人员一样。代理人的行动和工作空间的中间快照将作为评估的一部分进行收集。

团队将根据研究代理人在以下方面进行评估:1)在实现目标方面的能力(如成功率和平均改进量);2)推理和研究过程(如代理人如何实现结果或犯了哪些错误);3)效率(如代理人实现目标所需的时间和努力)。

团队首先收集了15个机器学习工程项目的集合,涵盖了不同领域的实验,这些实验既快速又廉价。他们为其中一些活动提供了简单的起始程序,以确保代理人可以进行有效的提交。例如,一个挑战是在cifar10数据集上将卷积神经网络(CNN)模型的性能提升10%以上。为了测试研究代理人的泛化能力,他们不仅使用已建立的数据集(如cifar10),还包括一些几个月前的Kaggle挑战和其他最新的研究数据集。他们的长期目标是将来自各个领域的各种科学研究任务纳入当前的任务集合。

考虑到基于大型语言模型(LLM)的生成代理人的最新进展,该团队还设计了一种简单的基于LLM的研究代理人,可以自动制定研究计划、阅读/编辑脚本、执行实验、解释结果,并继续进行下一步实验,覆盖MLAgentBench环境。通过观察他们在简单文本对话之外的行动和反应,可以看出,LLM拥有出色的先验知识,涵盖了从日常常识到具体科学领域的知识,具备出色的推理和使用工具的能力。在高层次上,他们只需要求LLM采取下一步行动,使用一个基于任务可用信息和之前步骤的自动生成提示。这个提示的设计在很大程度上借鉴了创建其他基于LLM的生成代理人的成熟方法,比如演绎、反思、逐步规划以及将研究记录作为记忆流进行管理。

他们还采用了分层行动和事实检查阶段,使AI研究代理人更加可靠和准确。在将他们的AI研究代理人测试于MLAgentBench之后,他们发现,基于GPT-4,它可以制定高度可解释的动态研究计划,并在许多任务中成功构建出优秀的机器学习模型,尽管依然存在一些不足之处。在已建立的任务中,如在ogbn-arxiv数据集上发展出更好的模型,它的平均改进率达到48.18%(Hu等人,2020年)。

然而,团队强调,该研究代理人在Kaggle挑战和BabyLM上只有0-30%的成功率。随后,他们评估该研究代理人在与其他经过修改的代理人进行比较时的表现。研究结果显示,保持记忆流的延续可能会妨碍简单任务的表现,可能是因为它分散了注意力,并鼓励代理人探索复杂的改变。