这篇来自韩国的人工智能研究介绍了MagiCapture:一种将主题和风格概念进行个性化整合以生成高分辨率肖像图像的方法

This Korean AI research introduces MagiCapture a method that combines subject and style concepts to generate high-resolution portrait images.

人们经常需要去摄影棚,然后经过昂贵而耗时的图片编辑过程,才能制作出适合简历或婚庆的高质量肖像照片。想象一种情况,你只需拍几张自拍照和参考照片即可获得特定风格的高质量肖像照片,如护照照片或个人资料照片。这篇论文实现了自动化这个过程。最近在大规模文本到图像模型(如Stable Diffusion和Imagen)的发展使得高保真、逼真的肖像照片成为可能。目前对这些模型进行个性化定制的研究旨在利用可用的训练照片结合特定主题或美学。

他们在论文中将其目标定义为多概念定制的挑战。一旦分别学习了源材料和参考风格,就会生成组合输出。使用参考图片而不是文本驱动的编辑可以让用户提供细粒度的建议,使其更适合此目的。然而,尽管早期个性化技术的成果令人鼓舞,但它们通常导致缺乏真实感且不具有商业可行性的视觉效果。这个问题通常发生在试图通过仅有的几张照片来更新大型模型的参数时。在多概念生成中,由于缺乏融合概念的真实图片,通常会导致不同概念的人工混合或偏离原始概念,这种质量下降尤为明显。

由于其固有的人类偏见,肖像照片制作中的任何人工痕迹或身份变化都很容易察觉,这个问题在这里最为明显。韩国科学技术院AI研究所和西江大学的研究人员提出了MagiCapture,一种多概念定制方法,通过仅有的几个主题和风格参考,将主题和风格思想融合起来,创建高分辨率的肖像照片,以解决这些问题。他们的方法使用了组合提示学习,将组合提示作为训练过程的一部分,并增强了源材料和参考风格之间的紧密集成。为了实现这一点,他们使用了辅助损失和伪标签。他们还建议使用注意力重新聚焦损失结合伪装重建目标,这是实现信息解缠和避免推理过程中信息泄漏的重要策略。MagiCapture在定量和定性评估中优于其他基准方法,并且只需进行少量调整即可应用于其他非人类物体的图像生成。

以下是他们论文的主要贡献:

• 他们提供了一种多概念个性化技术,可以生成高分辨率的肖像照片,准确复制源照片和参考照片的特征。

• 他们提供了一种全新的注意力重新聚焦损失,带有遮蔽重建目标,成功地将所需信息从输入图片中分离出来,并在生成过程中阻止信息泄漏。

• 他们提供了一种构建提示学习策略,使用辅助损失和伪标签有效地融合源材料和参考风格。他们的方法在定量和定性评估中优于现有的基准方法,并且只需进行轻微修改即可用于生成非人类物体的图片。