一项新的谷歌AI研究提出使用一种名为Pairwise Ranking Prompting (PRP)的新技术,显著减轻LLMs的负担

谷歌AI研究提出一种名为Pairwise Ranking Prompting (PRP)的新技术,减轻LLMs的负担

相比于可能使用数百万个标记的示例进行训练的有监督对应物,像GPT-3和PaLM这样的大型语言模型(LLMs)在各种自然语言任务上表现出了令人印象深刻的性能,即使在零样本设置中也是如此。然而,利用LLMs来解决基本的文本排序问题的结果参差不齐。现有的研究结果通常比训练的基准排序器表现明显差。唯一的例外是一种依赖于庞大、黑盒子和商业化GPT-4系统的新策略。

他们认为,依赖此类黑盒子系统对于学术研究人员来说并不理想,因为存在显著的成本限制和对这些系统的访问限制。然而,他们确实承认这类探索对于展示LLMs在排序任务中的能力具有一定的价值。当输入文档的顺序改变时,排序指标可能下降超过50%。在这项研究中,他们首先解释了为什么LLMs在使用当前方法的点对点和列表式公式时在排序问题上表现困难。由于仅生成的LLM API(如GPT-4)无法实现这一点,对于点对点技术的排序需要LLMs在排序之前生成校准的预测概率,这被认为是极具挑战性的。

LLMs经常提供不一致或毫无意义的输出,即使对于人类来说,指令似乎非常明显对于列表式技术。经验上,他们发现以前的工作中的列表式排序提示在VoAGI规模的LLMs上提供的结果完全没有意义。这些发现表明,当前广泛使用的LLMs需要理解排序任务,可能是由于它们的预训练和微调技术缺乏排序意识。为了显著降低LLMs的任务复杂性并解决校准问题,Google Research的研究人员提出了成对排序提示(PRP)范例,它使用查询和一对文档作为评分任务的提示。PRP基于简单的提示结构,并通过默认提供生成和评分LLMs APIs。

他们讨论了几种PRP的变种,以回答关于效率的问题。PRP的结果是文献中首次使用中等规模的开源LLMs在传统基准数据集上取得最先进的排序性能。在TREC-DL2020上,基于20B参数FLAN-UL2模型的PRP在NDCG@1上比文献中基于黑盒子商业GPT-4(估计)50倍模型大小的最佳方法提高了超过5%。在TREC-DL2019上,PRP可以击败当前的解决方案,例如具有175B参数的InstructGPT,对于几乎所有的排序度量指标都超过10%,但它在NDCG@5和NDCG@10指标上的表现只比GPT-4解决方案差。此外,他们还使用了具有3B和13B参数的FLAN-T5模型展示了竞争性的结果,以说明PRP的有效性和适用性。

他们还回顾了PRP的其他优点,例如支持LLMs API进行评分和生成以及对输入顺序的不敏感性。总之,这项工作有三个贡献:

• 他们首次证明了成对排序提示对于使用LLMs进行零样本排序非常有效。他们的发现是基于中等规模的开源LLMs,与现有的使用黑盒子、商业化和大规模模型的系统相比。

• 它可以使用简单的提示和评分机制产生最先进的排序性能。这一发现将使该领域的未来研究变得更加易于实现。

• 在实现线性复杂度的同时,他们研究了几种效率改进措施,并展示了良好的实证性能。