腾讯AI实验室推出了渐进条件扩散模型(PCDMs),通过三个阶段逐步缩小目标和源姿势下的人物图像之间的差距

腾讯AI实验室推出渐进条件扩散模型(PCDMs):逐步缩小目标与源姿势下人物图像之间的差距

姿势引导的人物图像合成研究领域近年来取得了重大进展,其重点是生成以不同姿势为特征但外貌相同的人物图像。这项技术在电子商务内容生成中具有广泛的应用,并且可以改善人物重新识别等下游任务。然而,它面临几个挑战,主要是源姿势与目标姿势之间的不一致性。

研究人员已经探索了各种基于GAN、基于VAE和基于流的技术,以应对姿势引导的人物图像合成挑战。基于GAN的方法需要稳定的训练,并且可能产生不真实的结果。基于VAE的方法可能会模糊细节并错位姿势,而基于流的模型可能会引入伪影。一些方法使用解析图,但在风格和纹理方面存在困难。扩散模型表现出了希望,但面临与姿势不一致性相关的挑战,这些挑战必须得到改善以获得更好的结果。

为了解决这些问题,一篇最近发表的论文介绍了渐进式条件扩散模型(Progressive Conditional Diffusion Models,PCDMs),该模型分三个阶段逐步生成高质量图像:预测全局特征、建立密集对应关系和细化图像以实现更好的纹理和细节一致性。

所提出的方法在姿势引导的人物图像合成方面做出了重大贡献。它引入了一个简单的先验条件扩散模型,通过揭示源图像外貌与目标姿势坐标之间的对齐关系生成全局目标图像特征。一种创新的修复条件扩散模型建立了密集的对应关系,将不对齐的图像到图像生成转化为对齐的过程。此外,通过细化条件扩散模型可以提高图像质量和保真度。

PCDMs包括三个关键阶段,每个阶段对整体图像合成过程做出贡献:

2) 先验条件扩散模型:在第一阶段,模型通过利用姿势坐标和图像外貌之间的对齐关系来预测目标图像的全局特征。模型使用一个以源图像和目标图像姿势以及源图像为条件的变换器网络。从CLIP图像编码器获得的全局图像嵌入引导目标图像的合成。这个阶段的损失函数鼓励模型直接预测未加噪音的图像嵌入。该阶段在特征级别弥合了源图像和目标图像之间的差距。

2) 修复条件扩散模型:第二阶段引入了修复条件扩散模型。它利用先前阶段获得的全局特征,在源图像和目标图像之间建立密集的对应关系,有效地将不对齐的图像到图像生成任务转化为对齐的任务。该阶段确保源图像和目标图像及其相应姿势在多个级别上对齐,包括图像、姿势和特征。它旨在改善源图像和目标图像之间的对齐,并对生成逼真结果至关重要。

3) 细化条件扩散模型:在上一阶段生成初步的粗粒度目标图像后,细化条件扩散模型提高了图像质量和细节纹理。该阶段利用上一阶段生成的粗粒度图像作为条件,进一步提高图像的保真度和纹理一致性。它涉及修改第一个卷积层并使用图像编码器从源图像提取特征。交叉注意机制将纹理特征注入网络,以进行纹理修复和细节增强。

该方法通过对公共数据集进行全面的实验证明了其在定量指标(SSIM、LPIPS、FID)上具有竞争力的性能。用户研究进一步验证了方法的有效性。消融实验研究了PCDMs各个阶段对整体合成效果的影响,突显了它们的重要性。最后,展示了PCDMs在人物重新识别中的适用性,与基线方法相比,显示出了改进的重新识别性能。

总之,PCDMs在姿势引导的人物图像合成方面具有显著的突破。借助多阶段方法,PCDMs有效解决了对齐和姿势一致性问题,生成高质量、逼真的图像。实验证明了它们在定量指标和用户研究上的优越性,PCDMs在人物重新识别任务中的适用性进一步突显了它们的实用性。PCDMs为各种应用提供了有前途的解决方案,推进了姿势引导图像合成领域的发展。