阅读《头像:逼真的情感可控音频驱动头像》

《头像:逼真的情感可控音频驱动头像》

添加情感控制到音频驱动的深度伪造

READ Avatars接受参考视频和任何音频,并能以精细的控制强度产生任何情感的唇同步视频。

现有音频驱动的深度伪造的一个关键限制是需要更多控制风格属性的能力。理想情况下,我们希望改变这些方面,例如使生成的视频快乐还是悲伤,或者使用特定演员的说话风格。READ Avatars正是要做到这一点,通过修改现有的高质量的个人模型,使其能够直接控制风格。

在过去写了几篇关于深度伪造模型的博文后,这篇对我来说有特殊意义,因为这是我自己的作品。这篇论文刚刚被接受到今年的BMVC会议,这是我第一篇被接受的论文!在本文中,我将介绍这项工作背后的动机、直觉和方法论。

什么是风格?

在考虑风格控制时,首先要问的是什么是风格。我通常给出的答案有点折衷:风格是我们的数据中不被视为内容的任何东西。这似乎只是将定义从一个词移到另一个词,但它确实使任务更容易。在音频驱动的深度伪造的背景下,内容是语音本身、与音频匹配的嘴唇动作以及面部的外观。

这意味着风格是在保持相同人的情况下修改视频的任何东西,并保持唇同步。

在我的研究中,我通常考虑两种特定形式的风格:情感特异性。情感风格只是表情上表达的情感,而特异性风格指的是不同个体之间表情的差异。例如,笑容在我的脸上和你的脸上的样子不同,这就是特异性风格的一个例子。这些不是唯一的风格,但它们是最容易演示和处理的。 对于这项工作,我们只使用情感风格,因为我们使用个人特定的模型。

表示情感风格

READ Avatars并不是第一篇研究改变音频驱动视频生成中情感风格的论文。然而,以前的方法将情感表示为一个one-hot向量或抽象的潜在表示(可以查看EVP和EAMM进行相应的示例)。前者没有足够的精度来实现精细的情感控制,而后者没有语义意义。因此,我们决定使用不同的情感表示方法。

为了表示N种不同的情感,我们使用一个N维向量,其中每个维度代表一种情感,并且具有0到1之间的实数值。我们将1定义为该情感的最大可能表达。全零向量因此表示没有情感(即中性)。

一个4维情感向量可以表示快乐、悲伤、愤怒和惊讶。

基准

为了实现最高可能的视觉质量,我们将模型基于先前工作的基于3DMM的方法。如果您感兴趣,我已经在之前的文章中介绍了这些内容!特别是,我们使用神经纹理方法,其中我们训练了一个基于uv的多通道纹理,并与图像到图像的UNET一起训练。

Theis等人的神经纹理方法(神经语音木偶)。我们的模型基于这项工作,但进行了大幅修改。

由于我们想要处理情感,我们需要生成整张脸,而不仅仅是嘴部区域。要做到这一点,我们只需将嘴部遮罩(如上图所示)更改为全脸遮罩。

一种天真的方法可能只是简单地将音频到表情网络与我们刚刚定义的情感代码关联起来(请查看我过去的帖子以获取有关音频到表情网络的更多详细信息)。然而,这并没有像人们希望的那样有效。我们提出了两个潜在的原因,即基于回归损失的模型缺乏细节和过度平滑的效果。

3DMM中细节不足

第一个问题与3DMM无法表示面部几何形状有关。这个问题有两个方面。首先,3DMM无法捕捉到唇部的“O”形状,如下图所示。然而,更重要的问题是,它完全没有任何形式来表示嘴部内部的任何东西,包括牙齿和舌头。

在这里,我们试图用3DMM表示一个人的脸部;请注意,它无法充分表示嘴部的“O”形状。

这导致在传递给图像到图像网络的渲染中存在潜在的歧义。例如,在没有舌头的情况下,音频“UH”和“L”以相同的方式表达,这种情况下,网络如何知道在嘴里生成什么内容呢?

为了解决这个问题,我们直接将音频添加到视频生成过程中。我们通过将神经纹理与音频相关联来实现这一点。我们使用Wav2Vec2的中间层作为特征提取器,将音频编码为潜在表示。然后使用2D位置编码条件化SIREN网络,输出一个随音频变化的16通道神经纹理(如下图所示)。有关架构的更多细节,您可以查看该论文的arxiv版本。

(可怕的)神经纹理根据输入音频变化。

这种包含使图像到图像网络具有足够的信息来解决这种歧义。

回归损失导致的平滑性

示例图显示基于回归的模型(红色)取所有可能有效序列的平均值(蓝色)。这可能导致非常平滑的运动。GAN模型(绿色)不会这样做。

现有的音频到表情模型使用基于回归的损失进行训练,通常是L1或L2损失。对于面部动画来说,这些损失有一个明显的缺点:它们会产生非常平滑的运动。对于给定音频存在两个可能的序列时,基于回归的模型会选择两者的平均值,导致运动的峰值被平均化,产生柔和的运动。这对于情感动画生成特别重要,因为与音频不相关的面部部位,如眉毛,可能随时移动,导致大量平滑处理和更差的情感表达。

基于GAN的模型可以缓解这个问题。鉴别器会学习将任何平滑运动标记为虚假,因此生成器被迫产生逼真、栩栩如生的运动。

结果

我们的方法与最先进技术的比较

事实上,我们提出的修改导致了结果的改善。我们已经能够产生比当前最先进技术更优越的结果。

神经纹理中音频调节的消融

结论和未来工作

READ Avatars进行了一些重要的修改,使得基于3DMM的模型能够扩展到包括情感风格在内的超高质量。这项工作产生了有趣的结果!尽管唇语同步性比任何现有的情感模型都要好,但它仍然有一定的差距。我们认为,通过添加一个专家鉴别器,例如wav2lip中使用的鉴别器,并使用更好的音频到表情模型,例如Imitator,可以改善这一点。

未来,修改更多的风格将会很有用,例如特殊风格。这可以被用来使乔·拜登以唐纳德·特朗普的唇部动作说话,这可能很有趣!为了做到这一点,我们需要构建广义的神经纹理模型,这是一个有趣的研究方向,也是未来工作的目标。

总的来说,这是一个非常有趣的项目,我很高兴能够发表我的第一篇论文。我期待着这项工作所带来的后续研究。如果您有任何问题或反馈,请在评论中让我知道!