在大型语言模型中实现更大的自我一致性

“优化大型语言模型:提升自我一致性的新策略”

当使用LLMs评估文本的正确性、准确性或相关性等特征时,一致性至关重要。如果LLM展示出不一致的判断,则其评估变得不可靠和不可信。

如果一个LLM评估论证的推理质量,却将一个无效的论证评为比一个完全有效的论证更具逻辑性,那么它就不能作为理性的仲裁者。由于模型自身缺乏逻辑的一致性,它的评估失去了可信度。

当出现这种不一致性时,就没有稳定的基础可以将LLM对不同文本的评估进行比较。如果模型任意自相矛盾,那么句子无法可靠地根据模型的不一致得分进行排名。

实质上,不一致性首先破坏了评估所提供的比较基础。如果LLM不能展示一致的评估标准应用,那么将其用于文本评估就失去了所有的效果和实用性。

因此,对于用于评分或判断文本质量和特征的LLMs来说,判断和评估的一致性是必要的。如果评估缺乏高水平的稳定性,无法基于对被评估概念的一致理解,那么将LLM的输出作为评估或计分的基础将会崩溃。

采样多个解决方案可以发现输出之间的一致性与质量强相关。然而,现有的一致性技术依赖于提取和匹配闭合形式的答案,限制了它们的适用性。本文探讨了在没有这些限制的情况下增强自一致性的方法,同时将决策基于现实世界的知识。

作者提供的图片

自一致性的需求

尽管取得了迅速的进展,但在最先进的模型中,逻辑错误和虚假仍然阻碍着可靠的推理。对于复杂的多步分析或自由形式的生成,模型常常自相矛盾或虚构无法支持的事实。

这表现为两个主要方面——不一致的开放式生成和不连贯的推理。当进行…