“遇见Decaf:一种面部和手部互动的新型人工智能单目变形捕捉框架”

邂逅 Decaf 一個全新的面部與手部互動人工智能單目變形捕捉框架

“`html

三维立体(3D)跟踪是计算机视觉和人工智能领域的前沿领域。它专注于仅利用单个二维视频流来估计物体或场景的三维位置和运动。

现有的用于从单目RGB视频进行三维跟踪的方法主要关注连接和刚性物体,如两只手或与刚性环境交互的人类。对于建模密集的非刚性物体变形(如手脸互动),这个挑战很大程度上被忽视了。但是,这些变形可以显著改善AR/VR、3D虚拟化人物通信和角色动画等应用的逼真程度。对于这个问题的有限关注归因于单目视图设置的固有复杂性以及相关难题,例如获取适当的训练和评估数据集以及确定可变形物体的合理非均匀刚性。

因此,本文介绍了一种应对上述基本挑战的新方法。它可以从单目RGB视频中跟踪人类手与人脸的三维互动。该方法将手建模为连接对象,并在活动互动中引发非刚性面部变形。下图概述了该技术。

这种方法依赖于一个新创建的数据集,其中捕捉了手脸的动作和互动以及面部的变形。在制作这个数据集时,作者们使用基于位置的动力学来处理原始的三维形状,并开发了一种估计头部组织非均匀刚度的技术。这些步骤导致了可信的表面变形标注、手脸接触区域和头手位置。

他们神经方法的核心是一个变分自编码器,它提供手脸互动的深度信息。此外,利用模块估计接触和变形来引导三维跟踪过程。通过定量和定性评估,这种方法产生的手和面部的最终三维重建在现实和可信度上都比该领域中的几种基准方法更加真实和合理。

同时重建手和面部,考虑到它们互动产生的表面变形,是一项极具挑战的任务。这在增强重建的逼真度方面尤为重要,因为这种互动在日常生活中经常被观察到,并且极大地影响他人对个人的印象。因此,在角色动画、虚拟/增强现实和角色动画等应用中,重建手脸互动对于创建沉浸式体验非常重要,其中栩栩如生的面部运动对于营造身临其境的体验至关重要。这也对手语转录和驾驶员疲劳监测等应用产生影响。

尽管有各种研究专注于重建面部和手势运动,捕捉它们之间的互动以及相应的变形从单目RGB视频中仍然鲜有涉猎,如Tretschk等人在2023年指出。另一方面,尝试使用现有的基于模板的手和面部重建方法往往会导致碰撞和互动以及变形的遗漏等问题。这主要是由于单目设置的固有深度模糊和重建过程中缺乏变形建模导致的。

该问题存在几个重要挑战。其中一个挑战(I)是缺乏用于训练模型和评估方法的面部和手势互动的无标记RGB捕捉数据集。由于手和头部运动经常导致遮挡,尤其是在非刚性变形发生的区域,创建这样的数据集具有很大的挑战性。另一个挑战(II)源于单视角RGB设置的固有深度模糊,使得获取准确的定位信息变得困难,在互动过程中会产生碰撞或手与头部之间缺乏接触等错误。

为了应对这些挑战,作者们推出了一种名为“Decaf”(代表面部与手势交互的变形捕捉)的单目RGB方法,旨在捕捉面部与手势互动以及面部的变形。具体而言,他们提出了一种将多视角捕捉设置与基于位置的动力学模拟器相结合的解决方案,以在存在遮挡的情况下重建交互表面几何。为了结合可变形物体模拟器,他们使用了一种叫做“头骨-皮肤距离”(SSD)的方法来确定头部网格的刚度值,该方法为网格分配非均匀刚度。与使用均匀刚度值相比,这种方法显著提高了重建几何的质量和合理性。

“`

通过使用他们新创建的数据集,研究人员训练神经网络从单视角RGB图像中提取3D表面变形、头部和手部表面的接触区域以及交互深度先验。在最终的优化阶段,利用来自各种来源的这些信息,获得了具有非刚性表面变形的逼真的三维手部和面部交互,并解决了单视角设置中固有的深度模糊问题。下面的结果演示了与现有方法相比更加合理的手脸交互。

这是Decaf的摘要,一种捕捉面部和手部交互以及面部变形的新型AI框架。如果您对此感兴趣并且想要了解更多信息,请随时参考下面引用的链接。