检索扩充对长文问题回答的影响是怎样的?这项人工智能研究为我们提供了新的观点,揭示了检索扩充对语言模型生成丰富知识文本的影响

检索扩充对长文问题回答的影响:人工智能研究揭示了语言模型生成丰富知识文本的新观点

在产生深度问题回答时,着重研究了检索如何影响答案的生成。这项研究提供了两个模拟的研究背景,一个保持语言模型(LM)不变,改变证据文档,另一个则相反。由于评估LFQA质量的困难,他们首先计算与连贯性等不同答案属性相关的表面指标(例如长度,困惑度)。将生成的答案归因于可用证据文档的能力是检索增强LFQA系统的有吸引力的特点。利用新获得的基于句子级归因的人工注释,对商业化的归因检测技术进行测试。

根据对表面模式的研究,研究团队得出结论,检索增强显着修改了LM的生成。即使提交的论文与问题无关,也不是所有的影响都会被消弱;例如,生成的回答长度可能会发生变化。与无关的文档相比,那些提供重要上下文证据的文档会导致LM生成更多的意外短语。即使使用相同的证据文档集,不同基础LM可能受到检索增强的不同影响。他们最新注释的数据集为测量归因评估提供了一个黄金标准。研究结果显示,NLI模型在确认事实问答中识别归因的能力在LFQA上也表现出色,超过随机机会,但准确性较人类一致性差15%。

该研究还表明,即使给定相同的文档集,归因的质量在基础LM之间可能存在很大差异。该研究还揭示了生成长文本的归因模式。生成的文本倾向于按照上下文证据文档的顺序进行,即使上下文文档是多个论文的拼接,最后一句比前面的句子要难以追溯得多。总的来说,该研究揭示了LM如何利用上下文证据文档回答深入问题,并指向可行的研究议程项目。

LFQA旨在提供对任何查询完整且详尽的响应。大型语言模型(LLMs)和检索文档提供的参数化信息使LFQA系统能够构建段落形式的复杂问题回答,而非从证据文档中提取片段。近年来,大规模LLMs的LFQA能力引人注目且脆弱。最近提出的检索方法被视为一种为LM提供最新和恰当信息的有效方法。然而,如何在生产过程中影响LM的检索增强仍然未知,并且并不总是产生预期的效果。

德克萨斯大学奥斯汀分校的研究人员调查了检索对LFQA答案生成的影响——这是一个具有挑战性的长文本生成问题。他们的研究提供了两个模拟的研究背景,一个保持LM不变,改变证据文档,另一个则相反。由于评估LFQA质量的困难,他们首先计算与连贯性等不同答案属性相关的表面指标(例如长度,困惑度)。将生成的答案归因于可用证据文档的能力是检索增强LFQA系统的有吸引力的特点。利用新获得的基于句子级归因的人工注释,对商业化的归因检测技术进行测试。

根据对表面模式的研究,研究团队得出结论,检索增强显着修改了LM的生成。即使提交的论文与问题无关,也不是所有的影响都会被消弱;例如,生成的回答长度可能会发生变化。与无关的文档相比,那些提供重要上下文证据的文档会导致LM生成更多的意外短语。即使使用相同的证据文档集,不同基础LM可能受到检索增强的不同影响。他们最新注释的数据集为测量归因评估提供了一个黄金标准。研究结果显示,NLI模型在确认事实问答中识别归因的能力在LFQA上也表现出色,超过随机机会,但准确性较人类一致性差15%。

该研究还表明,即使给定相同的文档集,归因的质量在基础LM之间可能存在很大差异。该研究还揭示了生成长文本的归因模式。生成的文本倾向于按照上下文证据文档的顺序进行,即使上下文文档是多个论文的拼接,最后一句比前面的句子要难以追溯得多。总的来说,该研究揭示了LM如何利用上下文证据文档回答深入问题,并指向可行的研究议程项目。