与GPS-Gaussian见面:一种以实时方式合成角色新视图的新型人工智能方法
探索与GPS-Gaussian相遇:一种实时合成角色新视角的新型人工智能方法
多视角摄像系统的一个重要功能是新视角合成(NVS),它试图使用源照片从新的角度生成逼真的图像。人类NVS的子领域在全息通信、舞台表演以及体育广播等领域有着显著的潜力,可以在实时效率和一致的3D外观方面做出重大贡献。以往的工作通常使用加权混合过程来创建新视图,但这些通常依赖于非常密集或有非常准确的代理几何的输入视图。在稀疏视图摄像机设置下为NVS渲染高保真图像仍然是一个巨大的问题。
在几个NVS任务中,隐式表示,尤其是神经辐射场(NeRF),近期显示出出色的性能。虽然已经有了加快这一过程的策略进展,但使用隐式表示的NVS方法仍需花费很长时间来查询场景空间中的密集点。相反,明确表示的实时和高速渲染能力,特别是点云,一直受到持续关注。当与神经网络结合使用时,基于点的图形提供了令人印象深刻的明确表示,既逼真又比人类NVS测试中的NeRF更有效率。
哈尔滨工业大学和清华大学的新研究旨在开发一种普遍适用的3D高斯喷点方法,通过前馈回归高斯参数来取代本文中的逐主题优化。他们的目标是学习如何使用具有各种人体拓扑结构、服装风格和姿态相关变形的大规模3D人体扫描模型来创建高斯表示,从成功的基于学习的人体重建方法(如PIFu)中汲取灵感。所提出的方法通过利用这些获取的人体先验知识,允许快速描绘人物外貌的普适性高斯模型。
- 纽约大学的研究人员提出了GPQA:一项挑战性的数据集,其中包含由生物学、物理学和化学领域的专家编写的448道多项选择题
- 遇见Vchitect:一款用于文本到视频(T2V)和图像到视频(I2V)应用的开源大规模综合视频创作系统
- Adobe 研究人员提出了 DMV3D:一种新颖的 3D 生成方法,使用基于 Transformer 的 3D 大型重建模型来去噪多视角扩散
研究人员提出了在源视图图像平面上定义的二维高斯参数图(位置、颜色、缩放、旋转、透明度)作为非结构化点云的替代品。多亏了这些高斯参数图,可以使用像素级参数来描绘角色,其中每个前景像素对应一个特定的高斯点。除此之外,它还可以使用经济高效的二维卷积网络来取代三维运算符。使用两视图立体作为可学习的非投影技术对源视图的两个视图估计深度图,将二维参数图提升到三维高斯点。通过这些非投影的高斯点来表示角色的源视图,并使用喷点方法生成新的视角图像。人物角色中的重要自遮挡使得现有的级联代价体积方法中的深度估计成为一个具有挑战性的问题。因此,团队建议在大规模数据上同时训练他们的高斯参数回归和迭代式的基于立体匹配的深度估计模块。通过对高斯模块的渲染损失进行最小化修复可能由深度估计引起的任何伪影,从而提高了3D高斯位置确定的准确性。这种协作方法使得训练更加稳定,对于各方都有好处。
实际上,团队只使用一张最先进的图形卡就可以实现25 FPS以上的2K新视角。使用该方法的广泛适用性和快速渲染能力,可以即时渲染一个从未见过的角色,而无需优化或微调。
正如他们的论文中所强调的,尽管建议的GPS-Gaussian可以合成高质量的图像,但仍有一些因素可能影响该方法的有效性。例如,一个重要的预处理步骤是精确的前景抠图。此外,在一个视图中的目标区域完全不可见,但在另一个视图中可见,如六摄像机设置中,该方法无法充分处理这种差异。研究人员认为,使用与时间相关的数据可以解决这个困难。