认识DreamSync:一种新的人工智能框架,通过从图像理解模型中获得反馈来改善文本到图像(T2I)合成

了解DreamSync:一种新的AI框架,利用图像理解模型的反馈来提升文本到图像合成能力(T2I)

“`html

来自南加利福尼亚州大学、华盛顿大学、巴尔幸大学和谷歌研究的研究人员介绍了DreamSync,该技术解决了扩散型文本到图片(T2I)模型中增强对齐和美感的问题,无需人工标注、模型架构修改或强化学习。通过生成候选图像,利用视觉问答(VQA)模型进行评估,并对文本到图片模型进行微调,实现此目标。

之前的研究提出使用VQA模型(例如TIFA)来评估T2I生成。TIFA拥有超过4,000个提示和25,000个问题,可在12个类别上进行评估。类似RLHF和训练适配器的训练相关方法解决了T2I对齐问题。例如SynGen和StructuralDiffusion的无训练技术对推理进行了对齐调整。

DreamSync解决了T2I模型中的挑战,提高了对用户意图和美感的保真度,无需依赖特定的架构或标记数据。它引入了一种模型无关的框架,利用视觉语言模型(VLM)来识别生成图像与输入文本之间的差异。该方法涉及生成多个候选图像,利用VLM进行评估,并对T2I模型进行微调。DreamSync提供了改进的图像对齐效果,优于基准方法,并能够提高各种图像特征,使其适用于更多的对齐改进。

DreamSync采用了模型无关框架,通过来自VLM的反馈对齐T2I生成。该过程包括从提示生成多个候选图像,并使用两个专用的VLM对其进行文本保真度和图像美观度评估。通过VLM反馈选择最佳图像,用于对T2I模型进行微调,迭代重复直至收敛。它还引入了迭代启动引导,利用VLM作为教师模型为未标记的T2I模型数据进行标注。

DreamSync改进了SDXL和SD v1.4 T2I模型,其中三个SDXL迭代在TIFA上保真度改进了1.7和3.7个点。视觉美感也提高了3.4个点。将DreamSync应用于SD v1.4,TIFA上的保真度提高了1.0个点,绝对得分增加了1.7个点,美感提高了0.3个点。在比较研究中,DreamSync在对齐方面优于SDXL,生成的图像具有更相关的组件和3.4个更正确的答案。它在TIFA和DSG基准测试上实现了卓越的文本保真度,而不会牺牲视觉外观,展示了随着迭代的进行逐渐的改进。

总之,DreamSync是一个多功能的框架,在具有挑战性的T2I基准测试中得到了评估,并在分布和非分布设置中对对齐和视觉吸引力都有显著的改进。该框架结合了来自视觉语言模型的双重反馈,并通过人工评级和偏好预测模型得到了验证。

DreamSync的未来改进包括使用详细的注释(例如边界框)来对齐反馈。在每次迭代中针对文本到图像合成的特定改进目标定制提示。通过探索语言结构和注意力图来增强属性-对象绑定。使用人工反馈训练回报模型可以进一步将生成图像与用户意图对齐。扩展DreamSync的应用到其他模型架构,评估性能,并在各种环境中进行附加研究,是正在进行中的研究领域。

“`