这项AI研究介绍了两种高质量视频生成的扩散模型:文本到视频(T2V)和图像到视频(I2V)模型

这项AI研究揭秘高质量视频生成的两种扩散模型:文本到视频(T2V)和图像到视频(I2V)模型

香港的一组研究人员引入了两个开源扩散模型,用于高质量视频生成。文本到视频(T2V)模型从文本输入生成影片质量的视频,超过其他开源T2V模型的性能。另一方面,图像到视频(I2V)模型将参考图像转换成视频,同时保留内容、结构和风格。这些模型有望推动学术界和工业界的视频生成技术,为研究人员和工程师提供宝贵资源。

扩散模型(DMs)在内容生成方面表现出色,包括文本到图像和视频生成。Make-A-Video、Imagen Video等视频扩散模型(VDMs)扩展了稳定扩散(SD)框架,以确保开源T2V模型的时间一致性。然而,这些模型存在分辨率、质量和组合的限制。这些模型超越了现有的开源T2V模型,在社区中推动了技术的发展。

生成模型,尤其是扩散模型,已经推动了图像和视频的生成。虽然存在开源的文本到图像(T2I)模型,但T2V模型的限制较多。T2V包括时间注意力层和一致性的联合训练,而I2V保留图像的内容和结构。通过共享这些模型,研究人员旨在支持开源社区,并推动视频生成技术的发展。

本研究提出了两个扩散模型:T2V和I2V。T2V采用了3D U-Net架构,包括空间-时间块、卷积层、空间和时间转换器以及双重交叉注意力层,以对齐文本和图像嵌入。I2V将图像转换为视频片段,保留内容、结构和风格。两个模型都使用可学习的投影网络进行训练。评估包括视频质量和文本与视频之间的对齐度的指标。

提出的T2V和I2V模型在视频质量和文本与视频的对齐方面表现优异,超越了其他开源模型。T2V采用了去噪的3D U-Net架构,在生成的视频中提供高视觉保真度。I2V有效地将图像转换为视频片段,保留了内容、结构和风格。与Gen-2、Pika Labs和ModelScope等模型进行的比较分析凸显了它们在视觉质量、文本与视频对齐、时间一致性和动作质量方面的优异性能。

总结起来,最近引入的T2V和I2V模型在生成视频方面显示出了巨大的潜力,推动了社区中的技术进步。虽然这些模型在视频质量和文本与视频的对齐方面表现优越,但仍然需要在生成视频的时长、分辨率和动作质量等方面进行未来的改进。然而,随着这些开源模型的发展,研究人员相信这一领域的进一步改进是可能的。

在未来,可以考虑添加帧并创建帧插值模型,将模型的持续时间延长到2秒以上。为了提高分辨率,可以与ScaleCrafter合作或使用空间上采样进行探索。建议使用更高质量的数据来增强动作和视觉质量。包括图像提示和研究图像条件分支也是探索使用扩散模型创建具有改进视觉保真度的动态内容的潜在领域。