大型语言模型在长篇问答中的表现如何?Salesforce研究人员对LLM的鲁棒性和能力进行了深入探究

Salesforce研究人员对LLM在长篇问答中的表现进行了深入探究

尽管ChatGPT和GPT-4等大型语言模型(LLMs)在多个基准测试中表现出更好的性能,但MMLU和OpenLLMBoard等开源项目在多个应用和基准测试中也取得了快速进展。随着它们进入LLMs的新时代,新模型和方法的快速发展,了解它们的能力、限制和区别变得更加重要。尽管LLMs已经展示了它们在摘要等任务中生成连贯文本的能力,但在长篇问答(LFQA)方面还需要更多的了解。

仍然需要解决的一个重要问题是长篇问答(LFQA),它在很多重要的实际应用中具有许多显著的应用(如支持论坛、故障排除、客户服务等)。回答这类问题通常需要复杂的思维技能,以理解问题并理解原始论文中分散的材料。文章的要点被压缩成摘要总结。他们认为,从这些摘要中产生的后续问题需要更好地理解连接源材料的各个部分的主题。此外,其他研究人员表明,需要理解超过长篇材料三分之一的答案通常被人们评估为“困难”。

Salesforce的研究人员提出了一种可扩展的评估方法,以比较巨大的LLMs和较小但成功的基本LLMs(如Llama-7B、13B)及其精简版本(如Alpaca-7B、13B)之间的差异。为此,他们建议明确指示ChatGPT从文档摘要中构建复杂的问题。他们的实证研究表明,从摘要中产生的后续问题提供了一个困难但更现实的设置,用于评估LLMs在两个方面的推理能力(生成问题的复杂性和开源LLMs的响应质量)。他们使用GPT-4在相关性、一致性、事实一致性和正确性方面确定响应质量,因为仅依靠人工评审进行长篇问答是昂贵且难以扩展的。他们还进行了较小规模的人工评估,证明GPT-4与人工评估强相关,使他们的评估可信。

以下是他们从这项研究中得出的主要结论:

• 他们建议从更长的上下文中推导出多次运行的问题,用于从抽象摘要中生成问题超过20%的时间。

• 精简LLMs(Alpaca-7B、13B)在从原始材料中生成问题时往往更少依赖上下文,但它们从文档摘要中生成问题的能力大大降低。

• 对于从摘要中导出的问题(>16.8%),精简LLMs产生的答案在不同的上下文中可能保持一致,但它们经常离题,产生多余的回复,并且只部分准确。

• Alpaca-7B和13B对更长的上下文(>1024个标记)更敏感,而基本LLMs(Llama)通常产生合理的回复。