中国的研究人员公布了ImageReward:一种突破性的人工智能方法,利用人类偏好反馈优化文本到图像模型
‘中国研究人员发布了ImageReward:一种革命性的人工智能方法,通过人类偏好反馈来优化文本到图像模型’
“`
近年来,文本到图像生成模型取得了巨大的发展,包括自回归和扩散方法。这些模型在给定正确的语言描述(即提示)时,可以生成与语义相关的高保真度视觉效果,引起了公众的极大兴趣。尽管有所进展,当前的自我监督预训练生成器仍有很长的路要走。由于预训练分布与实际用户提示分布不同,将模型与人类偏好对齐是一个主要困难。
由此产生的差异导致照片中的一些众所周知的问题,包括但不限于:
• 文本-图像对齐错误:如图1(a)(b)所示,在未能描绘文本提示中所述对象的所有数字、特性、属性和联系。
• 外形问题:显示扭曲、缺失、重复或异常的人体或动物身体部位,如图1(e)(f)所示。
• 人类审美:背离人类的典型或主流审美偏好,如图1(c)(d)所示。
• 毒性和偏见:包括冒犯性、暴力、性别歧视、非法或令人不悦的内容,如图1(f)所示。
图1:(上)根据多个文本-图像评分员确定的64个生成中的前1个图像。(下)使用ImageReward作为反馈的1次创作,遵循ReFL训练。选择ImageReward或进行ReFL训练可以改善图像的文本连贯性和人类偏好。斜体表示风格或功能,而粗体通常表示提示中的实质(来自实际用户的摘要)。
然而,不仅仅需要改进模型设计和预训练数据来克服这些普遍问题。研究人员已经在自然语言处理(NLP)中使用基于人类反馈的强化学习(RLHF)来指导大型语言模型朝着人类偏好和价值观的方向发展。该方法依赖于使用大量专家注释的模型输出比较来学习奖励模型(RM),以捕捉人类偏好。尽管具有效果,但注释过程可能昂贵且困难,因为需要数月时间来定义标注准则、聘请和培训专家、验证回复并生成RM。
清华大学和北京邮电大学的研究人员在意识到解决这些生成模型中的困难的重要性后,提出并发布了第一个通用的文本到图像人类偏好RM ImageReward。ImageReward基于实际用户提示和相应的模型输出,经过137k次专家比较的训练和评估。他们继续研究直接优化策略ReFL,以改进基于扩散的生成模型。
• 他们通过系统地识别文本到图像人类偏好注释的困难,建立量化评估和注释者培训的标准,提高标注效率并确保质量验证,开发了一个文本到图像人类偏好注释的流水线。他们创建基于流水线的文本到图像比较数据集,用于训练ImageReward模型。
• 通过深入研究和测试,他们展示了在文本到图像合成中,ImageReward在理解人类偏好方面优于其他文本-图像评分技术,如CLIP(超过38.6%),Aesthetic(超过39.6%)和BLIP(超过31.6%)。此外,ImageReward在上述问题上展现出了显著的改善,为融入人类欲望到生成模型中提供了有见地的信息。
• 他们断言自动化的文本到图像评估测量ImageReward可能是有用的。ImageReward与人类偏好排序保持一致,并且在来自实际用户和MS-COCO 2014的提示上,与FID和CLIP分数相比,具有更好的区分度。
“`
• 对于关于人类喜好评分的细化扩散模型,他们提出了奖励反馈学习(ReFL)。由于扩散模型不为其生成提供任何概率,他们对于ImageReward在后期去噪阶段对其质量可识别性的特殊洞察力使得在这些模型上进行直接的反馈学习成为可能。ReFL已经得到了全面的自动和手动评估,证明了其相对于其他方法的优势,包括数据增强和损失重新加权。