通过Text2Cinemagraph探索动态图像的力量:一种从文本提示生成电影画照的新型AI工具
Exploring the Power of Dynamic Images with Text2Cinemagraph A New AI Tool for Generating Movie-like Images from Text Prompts.
如果您对术语还不熟悉,您可能会想知道什么是活动照片,但我可以向您保证,您可能已经偶然遇到过它们。活动照片是视觉上引人注目的插图,其中特定元素重复持续运动,而场景的其他部分保持静止。它们不是图片,但我们不能将它们归类为视频。它们提供了一种独特的方式来展示动态场景,并捕捉一个特定的瞬间。
随着时间的推移,活动照片作为短视频和动态GIF在社交媒体平台和照片分享网站上变得越来越受欢迎。它们也常常出现在在线报纸、商业网站和虚拟会议中。然而,创建一个活动照片是一项非常具有挑战性的任务,因为它涉及使用摄像机捕捉视频或图像,并利用半自动技术生成无缝循环的视频。这个过程通常需要用户参与,包括捕捉合适的素材、稳定视频帧、选择动画和静态区域,并指定运动方向。
本文提出的研究探索了一个新的研究问题,即基于文本的活动照片的合成,以显著减少对数据捕捉和费力的手动工作的依赖。本文提出的方法捕捉到了像“水流”和“流动的河流”这样的运动效果(在介绍性图片中有所示),这些效果很难通过静态照片和现有的文本到图像技术表达出来。一个关键的方面是,这种方法扩展了活动照片可实现的风格和构图范围,使内容创作者能够指定多样的艺术风格,并描述想象力丰富的视觉元素。本研究展示的方法能够生成逼真的活动照片以及具有创意或超现实风格的场景。
当前的方法在解决这个新颖任务时面临着重要的挑战。一种方法是使用文本到图像模型生成艺术图像,然后对其进行动画化。然而,现有的针对单个图像操作的动画方法在为艺术输入生成有意义的动作上往往遇到困难,主要是因为它们是在真实视频数据集上训练的。构建一个大规模的艺术循环视频数据集是不切实际的,因为制作个别活动照片和涉及多样的艺术风格的复杂性。
另一种方法是利用基于文本的视频模型直接生成视频。然而,这些方法通常在静态区域引入明显的时间闪烁伪影,并且无法产生期望的半周期运动。
本文提出了一种名为Text2Cinemagraph的基于双图像合成的算法,以弥合艺术图像和设计用于真实视频的动画模型之间的差距。该技术的概述如下图所示。
该方法从用户提供的文本提示生成两个图像-一个艺术图像和一个逼真图像-它们共享相同的语义布局。艺术图像代表最终输出的期望风格和外观,而逼真图像作为输入更容易处理的当前运动预测模型的输入。一旦为逼真图像预测出运动,这些信息可以转移到其对应的艺术图像上,从而实现最终活动照片的合成。
尽管逼真图像不会显示为最终输出,但它在作为一个中间层的同时扮演了关键的角色,它类似于艺术图像的语义布局,同时又与现有模型兼容。为了增强运动预测,还利用了来自文本提示和逼真图像的语义分割的额外信息。
下面报告了结果。
这是关于Text2Cinemagraph的概述,一种用于自动化生成逼真cinemagraphs的新颖AI技术。如果您感兴趣并想了解更多关于这项工作的信息,您可以通过点击下面的链接找到更多信息。