认识DreamSync：一种新的人工智能框架，通过从图像理解模型中获得反馈来改善文本到图像（T2I）合成

了解DreamSync：一种新的AI框架，利用图像理解模型的反馈来提升文本到图像合成能力（T2I）

“`html

来自南加利福尼亚州大学、华盛顿大学、巴尔幸大学和谷歌研究的研究人员介绍了DreamSync，该技术解决了扩散型文本到图片（T2I）模型中增强对齐和美感的问题，无需人工标注、模型架构修改或强化学习。通过生成候选图像，利用视觉问答（VQA）模型进行评估，并对文本到图片模型进行微调，实现此目标。

之前的研究提出使用VQA模型（例如TIFA）来评估T2I生成。TIFA拥有超过4,000个提示和25,000个问题，可在12个类别上进行评估。类似RLHF和训练适配器的训练相关方法解决了T2I对齐问题。例如SynGen和StructuralDiffusion的无训练技术对推理进行了对齐调整。

DreamSync解决了T2I模型中的挑战，提高了对用户意图和美感的保真度，无需依赖特定的架构或标记数据。它引入了一种模型无关的框架，利用视觉语言模型（VLM）来识别生成图像与输入文本之间的差异。该方法涉及生成多个候选图像，利用VLM进行评估，并对T2I模型进行微调。DreamSync提供了改进的图像对齐效果，优于基准方法，并能够提高各种图像特征，使其适用于更多的对齐改进。

DreamSync采用了模型无关框架，通过来自VLM的反馈对齐T2I生成。该过程包括从提示生成多个候选图像，并使用两个专用的VLM对其进行文本保真度和图像美观度评估。通过VLM反馈选择最佳图像，用于对T2I模型进行微调，迭代重复直至收敛。它还引入了迭代启动引导，利用VLM作为教师模型为未标记的T2I模型数据进行标注。

DreamSync改进了SDXL和SD v1.4 T2I模型，其中三个SDXL迭代在TIFA上保真度改进了1.7和3.7个点。视觉美感也提高了3.4个点。将DreamSync应用于SD v1.4，TIFA上的保真度提高了1.0个点，绝对得分增加了1.7个点，美感提高了0.3个点。在比较研究中，DreamSync在对齐方面优于SDXL，生成的图像具有更相关的组件和3.4个更正确的答案。它在TIFA和DSG基准测试上实现了卓越的文本保真度，而不会牺牲视觉外观，展示了随着迭代的进行逐渐的改进。

总之，DreamSync是一个多功能的框架，在具有挑战性的T2I基准测试中得到了评估，并在分布和非分布设置中对对齐和视觉吸引力都有显著的改进。该框架结合了来自视觉语言模型的双重反馈，并通过人工评级和偏好预测模型得到了验证。

DreamSync的未来改进包括使用详细的注释（例如边界框）来对齐反馈。在每次迭代中针对文本到图像合成的特定改进目标定制提示。通过探索语言结构和注意力图来增强属性-对象绑定。使用人工反馈训练回报模型可以进一步将生成图像与用户意图对齐。扩展DreamSync的应用到其他模型架构，评估性能，并在各种环境中进行附加研究，是正在进行中的研究领域。

“`

AI Shorts,Applications,Artificial intelligence,Computer vision,Editors Pick

认识DreamSync：一种新的人工智能框架，通过从图像理解模型中获得反馈来改善文本到图像（T2I）合成

了解DreamSync：一种新的AI框架，利用图像理解模型的反馈来提升文本到图像合成能力（T2I）

如何在大型语言模型的世界中做好准备？

这个AI通讯简报就是你所需的全部 #76

高通AI研究的这篇AI论文揭示了EDGI：一种开创...

你应该听的6个人工智能播客

印度借助人工智能拉近语言鸿沟

进化式流失预测：引导干预和再培训

9种AI改进数据中心安全的方法

为像素赋予个性，Inworld 使用生成式人工智能...

人工智能