通过精炼身份偏好优化 (IPO)来细化更好的聊天模型

优化聊天模型:通过精炼身份偏好实现更好的细节化

Mistral 7B与IPO对齐

来自Unsplash的Rishabh Dharmani的照片

为了成为聊天模型,预训练的大型语言模型(LLM)会在与预期答案配对的大型指令/问题数据集上进行微调。虽然这种简单的微调可以得到令人信服的聊天模型,但它们的回答可能仍然是无条理的、有偏见的、不道德的和不安全的从人类角度来看。这就是为什么我们通常要进行额外的训练步骤来更好地将LLM与人类对齐。

可以使用强化学习与人类反馈(RLHF)来进行这种对齐。正如OpenAI和ChatGPT的成功所表明的,RLHF可以得到最先进的聊天模型。然而,RLHF的运行成本很高。它需要人工注释的大型数据集以及若干辅助模型(参考模型和奖励模型)的训练。

作为对RLHF的一种更简单、更便宜的替代方法,最近已经成功地应用了直接偏好优化(DPO)来对齐LLMs,例如Hugging Face的Zephyr和Intel的Neural Chat。

在本文中,我们将基于Google DeepMind的一项工作,看到RLHF和DPO在对齐LLMs方面表现良好,但在使用于训练的数据集方面远未达到最优。DeepMind还证明了为什么DPO容易过度拟合。我将以简单的英文解释DeepMind提出的替代方法身份策略优化(IPO)目标,相比RLHF和DPO,它更简单且更好地设计以从训练数据中学习。

在接下来的章节中,我将展示如何使用IPO,并且其训练方式与Hugging Face用于训练Zephyr模型的方式相似。

我还实现了一个演示Mistral 7B IPO训练的笔记本,你可以在这里找到:

获取笔记本 (#31)

DeepMind描述IPO的论文发布在arXiv上:

从人类偏好中学习的一般理论范式

ΨPO:偏好优化的推广

RLHF和DPO是在类似的数据集上进行训练的:提示与至少两个由人类(或LLM)评价的可能答案配对。这些答案是这样配对的,以便在一个…