来自Meta AI的研究人员推出了Style Tailoring:一种用于微调潜在扩散模型(LDMs)在具有高视觉质量的不同领域中的文本到贴纸配方的研究
美瞳推出Style Tailoring:将高质量视觉与多领域文本转换为精美贴纸的LDM微调研究
来自GenAI、Meta的研究团队介绍了Style Tailoring,这是一种为标签图像生成改进视觉质量、提示对齐和场景多样性的精细调整潜在扩散模型(LDM)的方法。在Emu等文本到图像模型的基础上,他们的研究发现依赖快速工程与逼真模型导致标签生成的对齐和多样性较差。Style Tailoring 包括以下内容:
- 对类似标签的图像进行精细调整。
- 用于对齐和风格的人机数据集。
- 解决权衡问题。
- 同时装配内容和风格分布。
该研究回顾了文本到图像生成的进展,强调了使用LDM的重要性。之前的研究探索了各种微调策略,包括将预训练扩散模型与特定风格对齐和用户提供的图像进行主题驱动时的微调。通过奖励加权的最大似然估计和使用人类选择训练ImageReward模型,它解决了提示和时尚对齐的挑战。Style Tailoring旨在在推理中平衡风格和文本信实度之间的权衡,而无需额外延迟。
这项研究探讨了基于扩散的文本到图像模型的进步,强调了它们能够根据自然语言描述生成高质量图像的能力。它解决了微调LDM以用于文本到图像任务中提示和风格对齐的权衡问题。引入Style Tailoring的目标是优化快速对齐、视觉多样性和技术一致性,以生成视觉吸引人的标签。该方法包括弱对齐图像、人机协作和专家协作阶段的多阶段微调。它还强调了生成标签中透明度和场景多样性的重要性。
该方法提出了一种文本到标签生成的多阶段微调方法,包括领域对齐、以人机协作为基础的对齐以改善提示以及专家协作对齐以增强风格。领域对齐使用了弱监督类似标签图像。所提出的Style Tailoring方法共同优化内容和风格分布,实现提示和时尚对齐之间的平衡。评估包括人类评估和指标,着重考虑生成标签中的视觉质量、快速对齐、风格对齐和场景多样性。
Style Tailoring方法显著提升了标签生成,将视觉质量提高了14%,提示对齐提高了16.2%,场景多样性提高了15.3%,优于基础的Emu模型的提示工程。它在不同的图形风格之间具有普遍性。评估涉及人类评估和诸如Fréchet DINO距离和LPIPS之类的指标,用于评估风格对齐和场景多样性。与基线模型的比较证明了该方法的有效性,并建立了其在关键评估指标上的优越性。
该研究承认,在依赖逼真模型进行标签生成的快速工程时,提示对齐和场景多样性存在局限性。Style tailoring改善了提示与风格对齐,但权衡依然具有挑战性。研究侧重于标签,并对推广到其他领域的普遍性进行了有限的探索,这带来了一些限制。可扩展到更大规模模型、全面比较、数据集限制和伦理问题是进一步研究的注意领域。它将受益于更广泛的评估和讨论关于文本到图像生成中更广泛应用和潜在偏见的问题。
总之,Style Tailoring有效地改善了由LDM生成的标签图像的视觉质量、提示对齐和场景多样性。与基础的Emu模型相比,它们分别提高了14%、16.2%和15.3%。这种方法适用于多种风格,并保持低延迟。它强调了在战略序列中进行微调步骤以实现最佳结果的重要性。