纽约大学的研究人员提出了GPQA:一项挑战性的数据集,其中包含由生物学、物理学和化学领域的专家编写的448道多项选择题

让您挑战自我:纽约大学研究人员推出GPQA数据集,包含由生物学、物理学和化学领域专家编撰的448道多项选择题

大型语言模型(LLMs)正在人工智能(AI)领域处于前沿,显示出超越人类技能的巨大潜力。但是,当这些模型接近超人类能力时,评估它们是否公正,并将其与人类理解相一致变得更加困难。解决这个问题对于确保新的AI系统能够可靠地提供正确信息至关重要,特别是在人类可以验证的真相可能难以捉摸的问题上,即所谓的可扩展的监督问题。

强大的评估测试平台对于评估LLMs在这些工作中的对齐情况至关重要。测试平台需要从这些模型中连续获得准确的数据,特别是在访问人类生成的或独立验证的真相有限的情况下。这样的测试平台应当足够困难,以便能够应对人类知识之外的问题,甚至测试高度训练过的非专家。当LLMs涉及更复杂的主题,尤其是在需要专业知识的领域时,评估其答案的准确性更加困难。监督技术的一个重要组成部分,比如从人类反馈中进行的强化学习,就是人类注释员评估LLM输出准确性的准确性。然而,在评注员很难因缺乏经验而区分正确性的领域中,虚构和阿谀奉承等问题变得更加严重。

为了应对这些问题,来自纽约大学、Cohere和Anthropic的研究人员提出了GPQA:一个研究生级别的无法被Google证明的问答基准。GPQA是一个包含生物学、化学和物理学的研究生级别的多项选择问题的评估数据集。有趣的是,GPQA花费了很多时间来尝试每个问题,并通过领域专家和高度训练有素的非专家进行验证,确保问题具有挑战性。 GPQA是一个经过彻底四步程序得出的结果。问题首先由领域专家开发,然后由其他人进行验证和修订。两个更多的专家验证者评估修正后的问题是否客观。最终,高素质的非专家验证者耐心地回答每个问题,确认数据集的复杂性。员工奖励制度经过精心设计,以在每个层面上认可和奖励卓越的工作。

通过448个苛刻案例,GPQA展示了即使是最先进的AI系统所面临的挑战。即使是最好的基于GPT-4的模型的准确率也只有39%,而专业人士的准确率达到65%,非专家的准确率为34%。这突显了该数据集对于研究超越现有模型的下一代模型的可扩展监督技术的价值。尽管其重要性,GPQA也存在一些缺点,包括非常有限的模型训练规模以及专家选择可能存在的偏见。未来,监督数据集可能努力找到未解决的问题作为超人类AI监督的标准,弥合模型与人类专业知识之间的知识差距。

GPQA作为一个开拓性的评估数据集,在要求高的领域扩展了人工智能评估的前沿。其开发方法和验证技术有助于制定有效监督超人类AI系统的协议,通过提供可扩展监督试验的见解。总之,GPQA的发展代表着评估AI系统的重要里程碑,并有可能提高超人类模型与人类知识的一致性。