谷歌研究人员揭示通用自洽性(USC):为复杂任务性能提供大型语言模型的新飞跃

谷歌揭示通用自洽性(USC):大型语言模型为复杂任务性能带来的新突破

Google的研究人员通过他们的Universal Self-Consistency(USC)方法解决了在任务性能上增强数学推理和代码生成等任务中从多个候选答案中选择最一致答案的问题。该方法利用LLMs并实现了与标准自一致性相媲美的结果,而无需相同的答案格式或对执行结果的访问。

重新排名通过抽样输出并应用事后条件来改善语言模型生成。LLMs评估模型生成的文本而无需人工参考。所提出的USC方法的性能与标准自一致性相媲美,无需额外的标记数据或外部重新排名模型。

LLMs在数学推理和代码生成等任务上表现出色。以往的方法通过抽样和基于条件的选择来提高LLM的输出质量。对于具有唯一答案的作业,自一致性是有效的,但在开放性时代中却面临困境。USC利用LLMs从多个候选者中选择最一致的响应。通过对多样化的基准进行演示,USC证明除了消除答案提取外,在增强开放性生成任务方面也非常有效。

USC方法采用LLMs来选择多个候选答案中最一致的答案,无需答案提取。USC将自一致性扩展到自由形式生成任务,通过数学推理、代码生成、摘要和开放式问答等基准进行评估。该方法利用LLMs生成多个样本,并基于一致性选择答案。

USC方法在开放式生成任务中显示了其效果,突破了原始自一致性方法的限制。在具有多样的答案格式的数学推理任务中,USC与标准自一致性相匹配,并在代码生成任务中无需代码执行匹配执行自一致性。USC在长篇背景摘要任务中始终超过基线,并在TruthfulQA基准上获得最高的真实性和信息性得分。USC的性能对于不同的响应顺序保持稳定,在某些任务中受益于更多的样本,并且可以通过轻微的任务特定调整进一步提高性能。

总而言之,USC方法在自由形式生成任务中表现出高度的效果,在长篇背景摘要和开放式问答任务中始终优于基线。它利用LLMs从多个候选者中选择最一致的答案,在数学推理任务和代码生成任务中显示了显著的改进,而无需类似的答案格式或真实的执行结果。USC是在各种情境下生成准确可靠响应的宝贵工具。