新加坡国立大学的研究人员提出了Show-1:一种混合的人工智能模型,将基于像素和潜在的VDM结合起来用于文本到视频的生成

新加坡国立大学的研究团队推出了Show-1:融合像素和潜在的VDM的混合人工智能模型,用于文本到视频的生成

新加坡国立大学的研究人员推出了 Show-1,这是一种用于文本-视频生成的混合模型,结合了基于像素的视频扩散模型和基于潜在的视频扩散模型(VDMs)的优势。像素 VDMs 在计算上非常昂贵,而潜在的 VDMs 则在精确的文本-视频对齐方面存在困难,Show-1 提供了一种新颖的解决方案。它首先使用像素 VDMs 创建具有强大的文本-视频相关性的低分辨率视频,然后利用潜在的 VDMs 将这些视频升采样到高分辨率。结果是高质量、高效生成的视频,并在标准视频生成基准测试中进行了精确对齐的验证。

他们的研究提出了一种从文本描述生成类照片真实视频的创新方法。它利用基于像素的 VDMs 进行初步视频创建,确保精确的对齐和动作表现,然后利用基于潜在的 VDMs 进行高效超分辨。Show-1 在 MSR-VTT 数据集上取得了最先进的性能,使其成为一种有前途的解决方案。

他们的方法引入了一种从文本描述生成高度逼真视频的方法。它结合了基于像素的 VDMs,以准确创建初始视频,并利用基于潜在的 VDMs 进行高效超分辨率。该方法 Show-1 在实现精确的文本-视频对齐、动作表达和效益方面表现出色。

他们的方法利用像素-based 和潜在-based VDMs 进行文本到视频的生成。像素-based VDMs 确保准确的文本-视频对齐和动作表现,而潜在-based VDMs 高效进行超分辨。训练涉及关键帧模型、插值模型、初始超分辨率模型和文本到视频(t2v)模型。利用多个 GPU,关键帧模型需要三天的训练时间,而插值和初始超分辨率模型每天需要一天。t2v 模型使用 WebVid-10M 数据集的专家适应进行三天的训练。

研究人员在 UCF-101 和 MSR-VTT 数据集上评估了所提出的方法。对于 UCF-101,Show-1 在 IS 指标衡量上表现出强大的零样本能力。MSR-VTT 数据集在 FID-vid、FVD 和 CLIPSIM 得分方面优于最先进的模型,表明其具有出色的视觉一致性和语义连贯性。这些结果确认了 Show-1 生成高度忠实和类照片真实的视频的能力,在光学质量和内容连贯性方面表现出色。

融合基于像素和基于潜在的 VDMs 的 Show-1 模型在文本到视频生成中表现出色。该方法确保了准确的文本-视频对齐、动作表达和高效超分辨,提高了计算效率。在 UCF-101 和 MSR-VTT 数据集上的评估验证了其出色的视觉质量和语义连贯性,优于或与其他方法相匹配。

未来的研究应深入探讨基于像素和基于潜在的 VDMs 结合的文本到视频生成方法,优化效率和改进对齐。应探索增强对齐和动作表现的替代方法,同时评估各种数据集。调查迁移学习和适应性至关重要。增强时间上连贯性和进行用户研究以实现真实输出和质量评估是必要的,促进文本到视频的进步。