遇见DifFace:一种新颖的用于盲目人脸修复的深度学习扩散模型
Introducing DifFace a novel deep learning diffusion model for blind face restoration
观看古老的照片,我们可以注意到与最近相机拍摄的照片有着明显的区别。模糊或像素化的照片曾经非常常见。由于理想的照片质量与细节、清晰度和锐度有关,因此很容易理解为什么旧照片无法达到这些质量标准。事实上,我们注意到古老相机和最近相机所拍摄的图像之间存在巨大差异。然而,这些问题在最近的照片中也经常出现,这取决于相机的快门或环境设置。
如果你有或曾经拍摄过模糊的肖像,其细节很难辨认,你是否曾想过是否可能将这些模糊的照片转变成锐利、高清晰度和高细节的照片呢?
这就需要盲目人脸修复(BFR)。它指的是从退化(例如噪声或模糊)或低质量输入图像中重建出一个清晰、真实的人脸图像的任务。由于其广泛的实际应用,如监控、生物识别和社交媒体,这个具有挑战性的问题在图像处理和计算机视觉领域引起了重要关注。
- 最佳的图像处理 Python 库
- 这篇AI论文提出了一种在频域中使用差分隐私的隐私保护人脸识别方法
- 中国最新的人工智能研究推出了“OMMO”:一个用于新颖视角合成和隐式场景重建的大规模室外多模态数据集和基准
近年来,深度学习方法已经成为盲目人脸修复的一种有希望的方法。这些基于人工神经网络的方法,在各种基准测试中展示了令人印象深刻的结果,并且可以在不需要手工设计特征或明确建模退化过程的情况下,学习从数据中构建复杂映射。
这些技术专注于许多复杂的度量、公式和参数,以提高修复质量。常用的L1训练损失用于保证保真度。最近的BFR方法引入了对抗损失和感知损失,以实现更逼真的结果。其他一些现有方法还利用了面部特定的先验知识,例如面部标志、面部组件和生成先验。同时考虑这么多约束使得训练变得不必要地复杂,通常需要费力的超参数调优来在这些约束之间取得平衡。更糟糕的是,对抗损失的不稳定性使得训练更加具有挑战性。
一种名为DifFace的新方法已经被开发出来克服这些问题。它可以更优雅地处理未知和复杂的退化,而不需要复杂的损失设计。其主要关键在于从输入的低质量(LQ)图像到其高质量(HQ)对应物的后验分布。具体而言,从LQ图像到预训练扩散模型的中间状态利用了一个过渡分布,然后通过递归应用预训练扩散模型逐渐传递到HQ目标。
下图展示了所提出的框架。
推断过程涉及从LQ图像y0得到中间扩散变量xN(其中N<T)。这个中间状态是通过所谓的扩散估计器获得的。它表示一种神经网络架构,用于从输入图像y0估计扩散步骤xN。然后从这个中间状态推断出理想的x0。这样做带来了几个优点。首先,这种方法比从xT到x0的完全逆扩散过程更高效,因为可以利用预训练的扩散模型(从xN到x0)。其次,无需从头开始重新训练扩散模型。此外,该方法不需要在训练中使用多个约束,但仍能处理未知和复杂的退化。
下图展示了DifFace和其他最先进方法的结果和比较。
从生成的图像细节来看,显然DifFace能够从低质量、模糊、退化的输入图像中生成高质量、高细节、清晰的图片,优于最先进的技术。
这是DifFace的概要,它是一个解决盲目人脸恢复问题的新框架。如果您感兴趣,可以在下面的链接中找到更多信息。