Google DeepMind介绍了直接奖励微调(DRaFT):一种用于微调扩散模型以最大化可微奖励函数的有效人工智能方法

Google DeepMind详细介绍了直接奖励微调(DRaFT):一种高效的人工智能方法,通过微调扩散模型来最大化可微奖励函数

扩散模型已经在各种数据类型的生成建模中引起了革命。然而,在从文本描述中生成美观的图像等实际应用中,通常需要进行微调。文本到图像扩散模型采用了无分类器引导和精心策划的数据集(如LAION审美)等技术,以改进对齐和图像质量。

在他们的研究中,作者提出了一种基于梯度的奖励微调的简单高效方法,其中通过扩散采样过程进行微分。他们引入了直接奖励微调(DRaFT)的概念,它本质上通过整个采样链进行反向传播,通常表示为长度为50个步骤的展开计算图。为了有效管理内存和计算成本,他们使用了梯度检查点技术,并优化LoRA权重,而不是修改整个模型参数集。

上图展示了使用人类喜好奖励模型的DRaFT。此外,作者还提出了改进DRaFT方法以提高其效率和性能。首先,他们提出了DRaFT-K,一种将反向传播限制在最后K个采样步骤中计算微调梯度的变体。经验结果表明,与相同数量的训练步骤相比,此截断梯度方法明显优于完全反向传播,因为完全反向传播可能导致梯度爆炸的问题。

此外,作者还提出了DRaFT-LV,它是DRaFT-1的一个变体,通过对多个噪声样本进行平均来计算更低方差的梯度估计,进一步提高了他们的方法的效率。

研究的作者将DRaFT应用于稳定扩散1.4,并使用各种奖励函数和提示集进行评估。他们利用梯度的方法相比基于RL的微调基线方法显示出明显的效率优势。例如,与RL算法相比,他们在最大化LAION美学分类器得分方面取得了超过200倍的速度提升。

作者提出的其中一种变体DRaFT-LV表现出了出色的效率,学习速度约为先前基于梯度的微调方法ReFL的两倍。此外,他们展示了DRaFT的多功能性,通过混合或缩放通过调整LoRA权重将DRaFT模型与预训练模型相结合或插值。

总之,直接在可以区分的奖励上微调扩散模型为改进生成建模技术提供了一个有希望的途径,对于涉及图像、文本等各种应用具有重要意义。其效率、多功能性和有效性使其成为机器学习和生成建模领域的研究人员和实践者工具包中的一项宝贵的补充。