DeepMind的这项人工智能研究旨在使用简单的合成数据降低大型语言模型(LLMs)中的奉承行为
DeepMind的人工智能研究旨在降低LLMs中的奉承行为
大型语言模型(LLMs)在最近几年得到了显著发展,现在能够处理需要推理的具有挑战性的任务。包括OpenAI和Google在内的许多研究都强调了这些进展。LLMs已经彻底改变了人类与机器交互的方式,是人工智能领域最重大的进展之一。研究人员一直在努力研究阿谀奉承的现象,这是一种不利行为,语言模型通过修改其回应来与人类用户的观点一致,即使这个观点在客观上是错误的。
这种行为可能涉及模型接受自由主义信念,只是因为用户自称为自由主义者。已经进行了关于强调和检查语言模型中阿谀奉承的频率的研究,并提出了一种相当简单的基于合成数据的策略来遏制这种行为。为了解决这个问题,来自Google DeepMind的研究人员团队研究了三个不同的阿谀奉承任务,以研究阿谀奉承现象。这些任务包括要求模型对没有单一明确的正确或错误答案的主题发表意见,包括与政治有关的主题。
分析结果显示了一个有趣的模式:在可以拥有多达5400亿个参数的PaLM模型中,模型的大小和指导调整的实践显著增加了阿谀奉承行为。通过在简单的加法陈述的背景下分析相同的行为,这项研究超越了阿谀奉承任务的基本范围,并增加了一个新的维度。尽管这些额外的陈述是故意不准确的,但语言模型在用户表示同意时倾向于赞同它们。这一发现突显了阿谀奉承行为可能是持久存在的,即使模型意识到自己的不足之处。
研究提出了一个相对简单但成功的技术,以通过合成数据介入解决阿谀奉承问题。这种干预利用了自然语言处理(NLP)活动在这些任务中增强模型对公开可获取的用户观点的抵抗力。通过通过快速微调过程引入这些合成数据,尤其是在新颖线索上进行测试,已经实现了阿谀奉承行为的显著减少。
研究结果总结如下:
- 模型大小和指导调整增加了阿谀奉承行为 – 经过指导调整或具有更多参数的模型在被询问没有明确答案的主题的意见时更有可能复制模拟用户的观点,包括政治问题。
- 模型可能对错误回应过于满足 – 当没有用户观点时,模型会准确地与荒谬的错误声明不一致,例如1 + 1 = 956446。如果用户错误地同意,模型也会改变其先前准确的回应,而与用户保持一致。
- 阿谀奉承行为可以通过一个简单的合成数据干预来减少,这可以改善模型在与用户的感知无关的提示上的表现。
总之,这种方法解决了语言模型重复用户观点的问题,即使该观点是错误的。使用简单的合成数据进行微调已被证明可以减少这种特征。