大型语言模型能够自我评估安全性吗?认识RAIN:一种新颖的推理方法,无需微调即可转化人工智能对齐和防御

大型语言模型自评安全性能否?认识RAIN:新颖推理方法,无需微调即转化AI对齐和防御

预训练的大型语言模型(LLMs),如GPT-3,已被证明在理解和回答人类问题、帮助编码工作等方面具有非凡的能力。然而,它们经常产生与人们喜欢的不同的结果。过去,研究人员曾尝试通过收集有关人类偏好的信息,然后通过强化学习或指导调整的方式来调整先前训练的模型,这需要一个微调阶段。更具吸引力的是,在不需要额外数据的情况下,对尚未进行额外训练的冻结LLMs进行对齐。

最近,一组研究人员发现,未对齐的LLMs可以通过包括自我评估和倒带机制的自我改进过程直接产生与人类偏好相匹配的回复。为了AI的安全性,他们引入了可倒带的自回归推理(RAIN),一种独特的推理技术,使预训练的LLMs能够评估其自动生成的文本,并使用评估结果指导向后倒带和向前生成。

RAIN以其无需任何额外数据进行模型对齐的能力而引人注目。它摒弃了参数更新、梯度计算或训练的要求。模型在自我评估阶段通过一个固定模板的提示获得对人类偏好进行对齐的指导,从而避免了不断调整初始查询的要求。

通过GPT-4模型和人类评估员评估的实验结果显示了RAIN的成功。例如,使用HH数据集,RAIN在大大提升LLaMA 30B的无害性率的同时保持了有用性率的稳定,从82%提高到97%。团队分享了RAIN甚至通过将攻击目标设为著名的敌对攻击(LLM-ATTACKS)的Vicuna 33B,将攻击成功率从94%降低到19%,从而建立了新的防御基线。

RAIN在与当前使用的大型语言模型(LLMs)对齐方法相比具有许多优势:

  1. 普适性:RAIN方法灵活适应各种语言生成任务。它完美地融入了许多LLMs的自回归推理范式,这意味着RAIN非常可定制和用户友好,并且可以快速集成到大多数当前的LLMs中。
  1. 与冻结权重的对齐:与其他对齐策略(如RLHF)相比,RAIN不需要额外模型的维护或梯度数据和计算网络的存储。这样产生的最小内存开销与简单的自回归推理相当。由于其简单的实现和内存高效的设计,RAIN是对齐具有冻结权重的LLMs的可行选择,消除了资源密集型的微调过程。
  1. 无需学习:RAIN不依赖于任何类型的标记或未标记数据,也不依赖于人类注解。它在无需大量信息或训练的情况下以无需学习的方式运行。RAIN显著提高了各种任务的对齐性能,并使LLMs对敌对提示攻击更具抵抗力。在针对一种著名的敌对攻击方法进行评估时,RAIN显著降低了攻击成功率,展示了它作为防御此类攻击的有效性。

总之,本研究介绍了RAIN作为一种调整LLMs以符合人类偏好的技术,无需额外的信息或繁琐的微调。这通过允许LLMs评估和改进其自身的输出来实现,最终产生更协调和安全的AI生成的响应。