DeepMind研究人员介绍了Reinforced Self-Training(ReST):一种简单的算法,通过Growing Batch Reinforcement Learning(RL)受到人类偏好的启发,用于将LLMs与人类偏好对齐
DeepMind研究人员介绍了Reinforced Self-Training(ReST):一种简单的算法,用于将LLMs与人类偏好对齐
大型语言模型(LLMs)非常善于产生写作流畅的内容并解决各种语言问题。这些模型通过使用大量的文本和计算进行训练,以增加下一个标记的自回归概率。然而,早期的研究表明,仅仅使用高概率创建的文本有时并不与人类在不同任务上的偏好相符。如果不正确对齐,语言模型可能会产生具有有害影响的危险材料。此外,对齐LLMs还可以提高其他下游操作的性能。利用人类偏好,通过反馈进行强化学习寻求解决对齐问题。
通常,通过人工输入学习奖励模型,然后使用强化学习(RL)目标对LLM进行微调。RLHF技术通常使用PPO和A2C等在线RL技术。在线训练期间必须对修改后的策略进行采样,并使用奖励模型对样本进行反复评分。在线方法受到处理持续流动的新数据的计算开销的限制,尤其是当策略和奖励网络的规模扩大时。此外,以前的研究还研究了模型正则化来解决这些方法容易受到“黑客攻击”的问题。作为替代方案,离线RL算法在计算效率上更高,并且由于从预定义的样本数据集中学习,更不容易受到奖励欺诈的影响。
然而,离线数据集的特性与离线学习的策略质量密切相关。因此,精选的数据集对离线RL的成功至关重要。否则,与监督学习相比,性能的改进可能很小。他们还提出了一种称为DPO(直接偏好优化)的技术,可以使用离线数据将LM与人类偏好相匹配。来自Google的研究人员将语言模型对齐问题作为逐批RL问题,并且他们的强化自训练(ReST)技术由两个循环组成:内循环(Improve)在给定数据集上改进策略。相反,外循环(Grow)通过从最新策略中取样来扩展数据集(见图1)。
在考虑到条件语言建模的基础上,ReST的阶段如下所示:1. Grow(G):使用语言模型策略(最初是监督策略),为每种情况生成大量输出预测以补充训练数据集。2. Enhance(I):使用评分公式对丰富的数据集进行排名和筛选。在他们的研究中,他们使用基于用户偏好训练的学习奖励模型作为评分函数。通过离线RL目标调整语言模型。随着筛选阈值的增加,重复此过程。然后,下一个Grow阶段使用最终策略。 ReST是一种通用方法,可以在执行Improve步骤时使用不同的离线RL损失。 ReST是一种广泛的策略,可以在执行Improve阶段时使用不同的离线RL损失。
实践中只需要能够1)有效从模型中采样和2)对模型的样本进行评分。与使用在线或离线RL的标准RLHF方法相比,ReST具有以下几个优点:
• Grow阶段的输出在多个Improve阶段中使用,与在线RL相比大大降低了计算成本。
• 由于在Grow阶段从改进策略中采样新的训练数据,策略的质量不受原始数据集质量的限制(与离线RL不同)。
• 检查数据质量并可能诊断对齐问题(例如奖励欺骗)非常简单,因为“增长”和“改进”步骤是解耦的。
• 微调的超参数很少,技术简单可靠。
机器翻译是一个典型的序列到序列学习问题,通常被表述为有条件的语言建模,其中一句外语作为条件上下文(源语言)。研究人员选择机器翻译,因为(a)它是一个有实际应用的领域,有可靠的基准和清晰的评估过程,以及(b)可以使用几种可信的当前评分和评估方法作为奖励模型。他们在IWSLT 2014和WMT 2020基准测试以及更具挑战性的高保真度内部基准测试中比较了几种离线强化学习算法。在他们的试验中,ReST显著提高了奖励模型在测试集和验证集上的结果。根据人工评估者的评价,ReST产生比有监督学习基线更高质量的翻译结果。