魅塔揭示鸸鹋视频和鸸鹋编辑:在文本转视频生成和精确图像编辑方面的先驱性进展

魅塔揭示鸸鹋视频和编辑的新潮:文本转视频生成和精确图像编辑方面的先锋进展

在快速发展的生成式人工智能领域中,实现高效和高质量的视频生成模型以及精确而多功能的图片编辑工具仍然面临挑战。传统方法通常涉及复杂的级联模型或需要过度修改的帮助,限制了它们的效果。Meta AI的研究人员通过引入两项突破性的进展来直面这些挑战:Emu VideoEmu Edit

目前的文本到视频生成方法通常需要深层级联的模型,需要大量的计算资源。基于Emu模型的扩展Emu Video采用分解方法来简化流程。它通过在文本提示条件下生成图像,然后根据文本和生成的图像生成视频。这种方法的简单性,只需要两个扩散模型,为高质量的视频生成设立了新的标准,优于以前的作品。

与此同时,传统的图片编辑工具需要改进以给用户精确的控制。

Emu Edit是一个多任务图片编辑模型,重新定义了基于指令的图片操作。利用多任务学习,Emu Edit处理各种图片编辑任务,包括基于区域和自由形式的编辑,以及重要的计算机视觉任务,如检测和分割。

Emu Video的分解方法简化了训练并产生了令人印象深刻的结果。仅使用两个扩散模型生成512×512的四秒视频,每秒钟16帧,代表了一个重大的进步。人类评估始终青睐Emu Video,突出了其在视频质量和对文本提示的忠实度方面的优秀表现。此外,该模型的多功能性还可用于为用户提供的图片添加动画效果,在这个领域树立了新的标准。

Emu Edit的架构专为多任务学习而设计,展示了在各种图片编辑任务中的适应能力。学习任务嵌入的加入确保在执行编辑指令时具有精确的控制。少样本适应性实验揭示了Emu Edit对新任务的快速适应能力,在标记示例或计算资源有限的情况下具有优势。随Emu Edit发布的基准数据集可以进行严格的评估,将其定位为在指令忠实性和图片质量方面出色的模型。

总之,Emu Video和Emu Edit代表了生成AI的一次变革性飞跃。这些创新解决了文本到视频生成和基于指令的图像编辑的挑战,提供了简化的流程、卓越的质量和前所未有的适应性。从创造迷人的视频到实现精确的图像操作,这些新技术的潜在应用凸显了它们对创意表达可能产生的深远影响。无论是为用户提供动画效果的图片还是执行复杂的图像编辑,Emu Video和Emu Edit都为用户开启了令人激动的新可能,让他们拥有全新的控制权和创造力。

EMU Video论文:https://emu-video.metademolab.com/assets/emu_video.pdf

EMU Edit论文:https://emu-edit.metademolab.com/assets/emu_edit.pdf

这篇文章的原始链接:Meta Unveils Emu Video and Emu Edit: Pioneering Advances in Text-to-Video Generation and Precision Image Editing

出现在 MarkTechPost 上。