扩展版:NVIDIA扩展Maxine以用于视频编辑,展示3D虚拟会议研究

NVIDIA扩展Maxine用于视频编辑和3D虚拟会议研究

专业人士、团队、创作者和其他人可以利用NVIDIA Maxine的力量创建高质量的音频和视频效果,甚至可以使用标准的麦克风和网络摄像头。

这套GPU加速的软件开发工具包和云原生微服务让用户能够部署增强实时通信服务和平台的音频、视频和增强现实效果的AI功能。Maxine还将扩展视频编辑功能,使团队在视频通信中达到新的高度。

此外,NVIDIA在本周的SIGGRAPH会议上展示了AI如何以3D功能将视频会议提升到一个新的水平。

NVIDIA Maxine功能扩展到视频编辑

无线连接使人们能够从比以往更多的地点参加虚拟会议。通常情况下,当呼叫者在移动中或在网络连接质量不佳的地方时,音频和视频质量会受到很大影响。

先进的实时Maxine功能,如背景噪音去除、超分辨率和眼神接触,使远程用户能够增强人际交流体验。

此外,Maxine现在还可以用于视频编辑。NVIDIA的合作伙伴正在利用与视频会议相同的Maxine功能改变这个专业工作流程。编辑视频时,无论是销售演讲还是网络研讨会,目标都是吸引尽可能广泛的受众。使用Maxine,专业人士可以利用增强音频和视频信号的AI功能。

通过Maxine,发言人可以从屏幕上看着笔记或脚本,而他们的目光仍然像直接注视摄像头一样。用户还可以以低分辨率拍摄视频,然后在后期提高质量。此外,Maxine还可以让人们以多种不同的语言录制视频,并将视频导出为英语。

今年将发布的Maxine功能包括:

  • 解说员:将简体中文、俄语、法语、德语和西班牙语翻译成英语,并通过动画显示用户说英语的形象。
  • 语音字体:使用户能够应用说话者的声音特征,并将其映射到音频输出。
  • 音频超分辨率:通过提高音频信号的时间分辨率和扩展带宽来改善音频质量。它目前支持从8,000Hz到16,000Hz的上采样,以及从16,000Hz到48,000Hz的上采样。此功能还通过降低延迟超过50%和提高吞吐量最多2倍进行了更新。
  • Maxine客户端:将Maxine的微服务的AI功能引入PC上的视频会议。该应用程序经过优化,适用于低延迟流媒体,并将使用云来满足其所有GPU计算需求。Thin Client将于今年秋季在Windows上发布,随后将提供其他操作系统的支持。

Maxine可以部署在云端、本地或边缘,这意味着几乎可以从任何地方访问高质量的通信。

将视频会议提升到新的高度

许多合作伙伴和客户都在通过Maxine体验高质量的视频会议和编辑。Maxine的两个功能——眼神接触和实时肖像——现在已经在NVIDIA AI企业软件平台的正式发布中可用。眼神接触通过估计和对齐用户的目光与摄像头来模拟直接的眼神接触。实时肖像通过实时视频流将一个人的肖像照片进行动画处理。

软件公司Descript旨在使视频成为每个沟通者工具箱中的重要工具,与文档和幻灯片并列。借助NVIDIA Maxine,使用Descript的专业人士和初学者可以使用AI功能来改进其视频内容工作流程。

Descript的业务和企业发展负责人Jay LeBoeuf表示:“通过NVIDIA Maxine的眼神接触功能,用户不再需要担心记忆脚本或进行繁琐的视频重拍。他们可以在每次演讲时保持完美的屏幕形象。”

Reincubate的Camo应用旨在利用人们已经拥有的硬件和设备,扩大对出色视频的访问。它通过给用户更多对其图像的控制,并实施强大高效的视频效果和转换处理管道来实现这一目标。利用NVIDIA Maxine提供的技术,Camo可以为用户提供更简便的实现令人难以置信的视频创作的方法。

Reincubate的创始人兼首席执行官Aidan Fitzpatrick表示:“将NVIDIA Maxine集成到Camo中非常简单,这让我们能够立即从用户的RTX GPU获得高性能。借助Maxine,团队能够更快、更有信心地前进。”

Quicklink的Cre8是一个功能强大的视频制作平台,用于创建专业的、符合品牌形象的制作、虚拟和混合现场活动。用户友好的界面将直观的设计与构建、编辑和定制专业外观制作所需的所有工具结合在一起。Cre8采用NVIDIA Maxine技术,以最大化生产力和视频制作质量,为操作员提供完全控制。

“Quicklink Cre8现在提供了地球上最先进的视频制作平台,”Quicklink的CEO Richard Rees说道。“借助NVIDIA Maxine,我们能够添加高级功能,包括自动定帧、视频噪声去除、噪声和回声抵消以及眼神接触模拟。”

位于洛杉矶的公司gemelo.ai提供了一个创建AI双胞胎的平台,可以扩展用户的声音、内容和互动。使用Maxine的Live Portrait功能,gemelo.ai团队可以为扩展的个性化内容和一对一互动开启新的机会。

“Live Portrait的逼真程度改变了游戏规则,为我们的AI双胞胎开启了新的潜力领域,”gemelo.ai的CEO Paul Jaski表示。“我们的客户现在可以设计和部署具有无限内容生产和在应用程序、网站和混合现实体验中进行互动的超逼真数字双胞胎。”

NVIDIA研究展示了3D视频如何增强沉浸式通信

除了为Maxine提供先进功能的动力,NVIDIA AI还通过3D增强了视频通信。NVIDIA研究最近发表了一篇论文,展示了如何使用AI能力以最少的捕获设备来驱动3D视频会议系统。

3D遥感系统通常价格昂贵,需要大型空间或制作工作室,并使用高带宽的体积视频流 —— 所有这些都限制了该技术的可访问性。NVIDIA研究分享了一种新方法,该方法运行在一种基于VisionTransformer的新型编码器上,它从标准网络摄像头获取2D视频输入,并将其转换为3D视频表示。与会者之间不需要在会议中传递3D数据,AI使得通话的带宽要求与2D会议相同。

该技术获取用户的2D视频,并使用体积渲染自动创建称为神经辐射场(NeRF)的3D表示。因此,参与者可以流式传输2D视频,就像传统视频会议一样,同时解码可以实时渲染的高质量3D表示。而且,借助Maxine的Live Portrait,用户可以让他们的肖像以3D形式栩栩如生。

AI介导的3D视频会议可以显著降低3D捕捉的成本,提供高保真度的3D表示,适应照片级真实或风格化的头像,并在视频会议中实现双向眼神接触。相关研究项目展示了AI如何提升沟通和虚拟互动,以及为视频会议提供未来NVIDIA技术的信息。

在下方查看该系统的运行情况。SIGGRAPH的参会者可以访问Emerging Technologies展位,团体将能够同时在由纽约公司Looking Glass设计的3D显示器上观看实时演示。

可用性

了解更多关于NVIDIA Maxine的信息,该技术现已在NVIDIA AI Enterprise上提供。

并查看更多有关3D视频会议项目的研究。

特色图片由NVIDIA Research提供。