使用AI框架“DreamPose”将时尚图像转化为惊人逼真的视频

使用AI框架“DreamPose”转化时尚图像为逼真视频

时尚摄影在在线平台上广泛存在,包括社交媒体和电子商务网站。然而,作为静态图像,它们在提供关于服装的全面信息方面有限,特别是关于它们在人体上的合身度和运动性。

相比之下,时尚视频提供了更完整和沉浸式的体验,展示了面料的质地、披肩和流动方式以及其他难以通过静态照片捕捉到的重要细节。

时尚视频对于希望做出明智购买决策的消费者来说是一种宝贵的资源。它们可以更深入地观察服装的实际效果,使购物者更好地评估其是否适合自己的需求和偏好。尽管具有这些好处,时尚视频仍然相对罕见,许多品牌和零售商仍然主要依赖摄影来展示他们的产品。随着对更具吸引力和信息性内容的需求不断增长,整个行业越来越有可能增加生产高质量时尚视频。

解决这些问题的一种新方法来自人工智能(AI)。它的名字是DreamPose,它代表了一种将时尚照片转化为逼真的动画视频的新方法。

这种方法涉及基于稳定扩散的扩散视频合成模型。通过提供一个或多个人类图像和相应的姿势序列,DreamPose可以生成主题在运动中的逼真和高保真度的视频。其工作流程概述如下所示。

从图像生成高质量、逼真的视频任务面临着几个挑战。尽管图像扩散模型在质量和保真度方面取得了令人印象深刻的结果,但视频扩散模型的情况则不尽相同。这种模型通常只能生成简单的运动或卡通样的视觉效果。此外,现有的视频扩散模型存在一些问题,包括时间一致性差、运动抖动、缺乏逼真度和对目标视频中运动的控制能力有限。这些局限部分是因为现有模型主要是基于文本而不是其他信号进行条件化,例如运动信号,它可以提供更精细的控制。

相比之下,DreamPose利用图像和姿势的条件化方案来实现更高的外观保真度和帧间一致性。这种方法克服了现有视频扩散模型的许多缺点。它还使得能够生成高质量的视频,准确地捕捉输入对象的运动和外观。

该模型是通过对一个高效建模自然图像分布的预训练图像扩散模型进行微调而构建的。使用这样的模型,通过识别与条件化信号一致的自然图像子空间,可以简化图像动画化的任务。为了实现这一点,稳定扩散架构已被修改,具体是通过重新设计编码器和条件化机制以支持对齐图像和非对齐姿势的条件化。

此外,它还包括一个两阶段微调过程,包括使用一个或多个输入图像对UNet和VAE组件进行微调。这种方法优化了模型,以生成逼真、高质量的视频,准确捕捉输入对象的外观和运动。

本文作者报告的一些生成结果示例如下图所示。此外,该图还包括了DreamPose和最先进技术之间的比较。

这是关于DreamPose的摘要,一种从单个输入图像合成逼真时尚视频的新型AI框架。如果您有兴趣,您可以在下面的链接中了解更多关于这种技术的信息。