这项AI研究介绍了GAIA:一个定义了通用AI能力的下一个里程碑的基准

探索下一里程碑:GAIA - 一个定义通用AI能力的重要研究进展

来自FAIR Meta、HuggingFace、AutoGPT和GenAI Meta的研究人员解决了测试普通AI助手处理需要基本技能(如推理和多模态处理)的现实世界问题的能力的问题,这对于拥有类似人类响应的先进AI来说具有挑战性。GAIA的开发旨在通过以人类水平的鲁棒性为目标来达到人工通用智能。

GAIA专注于需要推理和多模态技能的现实世界问题,并强调对于人类和先进AI而言具有挑战性的任务,与封闭系统不同,GAIA模拟了真实的AI助手使用案例。GAIA具有精心策划的不可操纵问题,优先质量并展示了插件与GPT-4的人类优势。它旨在指导问题设计,确保多步骤完成并防止数据污染。

随着LLM超越当前基准,评估它们的能力变得越来越具有挑战性。尽管强调复杂任务,研究人员认为人类的困难水平不一定能够挑战LLMs。为了应对这一挑战,引入了一个名为GAIA的新模型。它是一个通用AI助手,专注于现实世界问题,避免了LLM的评估陷阱。通过反映AI助手使用案例的人工制作问题,GAIA确保了实用性。通过以自然语言处理中的开放式生成为目标,GAIA旨在重新定义评估基准并推动下一代AI系统的发展。

一个提议的研究方法涉及利用GAIA创建的基准来测试通用AI助手。该基准由优先推理和实际技能的现实世界问题组成,人类设计了该问题以防止数据污染并实现高效而准确的评估。评估过程通过系统提示使用准确匹配进行模型答案和准确答案的对齐。已发布了开发者集和300个问题以建立排行榜。GAIA基准背后的方法旨在评估自然语言处理中的开放式生成,并提供推进下一代AI系统的见解。

GAIA进行的基准测试揭示了人类与GPT-4在回答现实世界问题时的显著差距。虽然人类的成功率达到了92%,但GPT-4只得到了15%。然而,GAIA的评估还显示LLM的准确性和使用案例可以通过增加工具API或网络访问来增强。这为人工智能模型的合作和下一代AI系统的进展提供了机会。总的来说,该基准提供了对AI助手的清晰排名,并突显了通用AI助手在性能上需要进一步改进的需求。

总结起来,GAIA的基于现实世界问题评估通用AI助手的基准显示,人类在插件方面胜过了GPT-4。它强调了AI系统需要在概念上简单而复杂的问题上展现与人类类似的鲁棒性的需求。基准方法的简洁性、不可操纵性和可解释性使其成为实现人工通用智能的高效工具。此外,发布带注释的问题和排行榜的目的是解决自然语言处理和其他领域中开放式生成评估的挑战。