一项关于利用扩散模型在图像之间融合插值的人工智能研究

利用扩散模型融合插值的人工智能研究

人工智能是开发人员和研究人员最新的讨论话题。从自然语言处理和自然语言理解到计算机视觉,人工智能正在革新几乎所有领域。最近引入的大型语言模型,如DALL-E,已成功地从文本提示中生成了美丽的图像。尽管在图像创建和操作方面取得了很大的进展,但仍需要更多研究的一个领域是两个输入图像之间的插值。当前使用的图像生成管道无法完成此类插值。

将插值功能添加到图像生成模型中可以成功产生新的创新应用。最近,麻省理工学院CSAIL的研究人员发布了一篇研究论文,解决了这个问题,并提出了一种可以使用预训练的潜在扩散模型在各种领域和布局的图像之间产生高质量插值的策略。他们分享了如何利用潜在扩散模型进行零样本插值的方法。他们的策略涉及在生成模型的潜在空间中工作,通过在两个输入图像的相应潜在表示之间应用插值来实现。

插值过程发生在不同逐渐降低的噪声水平上,其中噪声是指应用于潜在向量的随机扰动,影响生成图像的外观。研究人员分享了他们在完成插值后如何去噪插值表示,通过最小化额外噪声的影响来改进插值图像。

去噪阶段需要通过文本反演获得插值文本嵌入。通过文本反演,书面描述被转换为等效的视觉特征,使模型能够理解预期的插值属性。主题姿势被有意地纳入以帮助指导插值过程,使模型能够生成更一致和逼真的插值,提供有关照片中对象或人的位置和方向的信息。

这种方法能够生成多个候选插值,以确保高质量的结果和良好的灵活性。使用CLIP,一个能够理解图像和文本内容的神经网络,可以对这些候选进行对比,并根据特定要求或用户偏好选择最佳插值。在包括主题姿势、图像风格和图像内容在内的许多设置中,团队已经展示了这种方法提供可信插值的能力。

团队分享了传统的定量指标,如FID(Fréchet Inception Distance),这些指标通常用于评估生成图像的质量,对于衡量插值的质量是不足够的,因为插值具有独特的特征,应该以不同的方式进行评估。引入的流水线易于使用和部署,通过文本条件、噪声调度和手动选择创建的候选项,为用户提供了很大的灵活性。

总之,这项研究解决了图片编辑领域中鲜为人知的一个问题。该策略使用已经训练过的潜在扩散模型,并通过与其他插值方法和定性结果的比较展示了其有效性。