谷歌AI提出了一种新的方法来减轻LLMs的负担:成对排名提示
谷歌AI提出了成对排名提示来减轻LLMs的负担
谷歌AI研究人员发布了一篇名为“Pairwise Ranking Prompting”(PRP)的新论文,提出了一种新的方法。其目标是缓解大型语言模型在解决文本排序问题时面临的挑战。GPT-3和PaLM等大型语言模型在自然语言任务上表现出色,即使在零样本情况下也能取得显著性能。
但是,在文本排序方面,除了像GPT-4这样的黑盒系统之外,现有的方法往往无法与训练过的基准排序器相媲美。在论文中,研究团队承认了黑盒系统的价值,同时强调了学术研究人员面临的成本和访问限制等约束。
因此,在他们的研究中,他们深入探讨了为什么大型语言模型在使用当前的点对点和列表方法解决排序问题时遇到困难。团队表示,他们发现为点对点技术生成校准的预测概率对于大型语言模型来说极具挑战性。
- 从DeepMind到初创企业成功:与Aleksa Gordić一起踏上AI前沿的旅程
- 通过使用这个工具简化提示工程测试
- 在3D中工作的神奇画笔:Blended-NeRF是一种在神经辐射场中进行零样本物体生成的AI模型
另一方面,列表方法导致不一致或无关的输出,表明当前的大型语言模型预训练和微调技术缺乏排序意识。为了弥补这个限制并减少与任务复杂性相关的问题,研究人员提出了PRP范式。
该方法利用简单的提示架构,将查询和一对文档作为排序任务的提示。与现有方法不同,PRP默认提供了生成和评分的大型语言模型API,解决了校准问题。文中讨论了几种PRP的变体,以确保效率和有效性。
他们继续使用中等规模的开源大型语言模型对PRP进行评估,使用传统基准数据集。结果表明,他们的方法超过了基于黑盒商业GPT-4的先前方法,模型规模显著更大。
一个例子是在TREC-DL2020数据集上。基于20B参数FLAN-UL2模型的PRP在NDCG@1上相对于先前最佳方法的提升超过5%。在TREC-DL2019上,PRP在大多数排序指标上优于InstructGPT等现有解决方案,与GPT-4相比,在NDCG@5和NDCG@10指标上略有性能下降。
总的来说,PRP具有几个优点,包括支持大型语言模型API进行评分和生成,以及对输入顺序的不敏感。这项工作有三个主要贡献。首先,它展示了使用中等规模的开源大型语言模型进行零样本排序的有效性。其次,通过简单的提示和评分机制实现了最先进的排序性能。
最后,探索了在保持良好经验性能的同时提高效率的方法。
编辑注:您准备好了解最新的生成式人工智能了吗?加入我们的一日生成式人工智能峰会,深入了解这项尖端技术。现在免费注册,释放生成式人工智能的力量。