RLHF 从人类反馈进行强化学习

从人类反馈中进行强化学习的RLHF算法

ChatGPT的成功要素:指导数据。

ChatGPT以其出色的能力征服了世界。但是它是如何变得如此聪明呢?

最近,我与一位我非常尊重的软件工程师前同事交谈时,我注意到他认为ChatGPT是AGI(人工通用智能)的一种体现,并指出它能够以六岁孩子的理解水平简化复杂主题的能力作为证据。虽然我对它过于智能的看法不完全不同,但我觉得有必要表达一下我的想法。在这篇文章中,我想强调一下,ChatGPT的魔力在很大程度上依赖于其训练数据。

精心策划的指导数据是ChatGPT拥有类人能力的关键。把概念解释给一个6岁孩子听,将简历转化为LinkedIn个人资料,与你一起集思广益等等,并不是偶然产生的,而是以训练数据的形式刻意编码到模型中的。

和其他人一样,这是我第一次经历封闭的研究。自我上大学以来,所有前沿研究都是公开的、经过同行评审的,直到最近。而我相信,开放性最终比封闭性推动科学进步。

如果我们希望通过开源实现与ChatGPT相匹敌的性能,我认为我们需要开始更加重视训练数据。ChatGPT的有效性很大程度上可能不是来自于特定的机器学习架构、微调技术或框架,而更可能来自于指导数据的广度、规模和质量。

直白地说,对中等质量的指导数据进行大型语言模型的微调是一种计算资源的浪费。让我们来看看在训练数据和学习范式方面发生了什么变化,以及我们如何以与过去大规模预训练不同的方式组织训练数据,从而实现不同的学习。

RLHF是什么?

RLHF代表从人类反馈中进行强化学习。它有两个主要组成部分:

  1. 强化学习(RL)
  2. 人类反馈(HF)