“《侏罗纪公园》的等待结束了吗?这种人工智能模型使用图像到图像的转换技术将古老的化石复活了起来”

The waiting for Jurassic Park is over? This AI model revives ancient fossils using image-to-image translation technology.

图像到图像的转换(I2I)是计算机视觉和机器学习领域内的一个有趣领域,它有能力将图像内容从一个域转换到另一个域而无缝衔接。这种转换过程不仅仅是改变像素值,还需要对图像的底层结构、语义和风格进行深入理解。

I2I在各个领域都有广泛的应用,从生成艺术照片到画作,再到将卫星图像转换为地图,甚至将草图翻译成逼真的图像。它利用了深度学习模型的能力,如生成对抗网络(GAN)和卷积神经网络(CNN)。

传统的I2I方法主要集中在小间隔域之间的转换,如照片到画作或不同类型的动物。然而,这些任务在转换过程中不需要生成显著不同的视觉特征或关于形状的推理。

让我们来见识一下Revive-2I,一种新颖的I2I方法,它探索了将头骨转换成活体动物的任务,这个任务被称为Skull2Animal。

Skull2Animal是一个具有挑战性的任务,涉及将头骨转换成活体动物的图像。这个任务具有重大挑战性,因为它需要生成新的视觉特征、纹理和颜色,并对目标域的几何形状进行推理。

Skull2Image任务。来源:https://arxiv.org/abs/2308.07316

为了克服长期I2I转换的挑战,Revive-2I使用描述图像中所需变化的文本提示。它可以生成逼真且可验证的结果。这种方法对可接受的转换提供了更严格的约束,确保生成的图像与目标域相匹配。

Revive-2I利用自然语言提示通过潜在扩散模型执行零样本I2I。

Revive-2I包括两个主要步骤:编码和文本引导解码。在编码步骤中,源图像使用扩散过程转换为潜在表示。然后,在潜在表示中加入噪声以实现所需的变化。通过在潜在空间中执行扩散过程,Revive-2I实现了更快、更高效的转换。

Revive-2I概述。来源:https://arxiv.org/abs/2308.07316

找到Revive-2I的最佳平衡点并不容易。这需要对前向扩散过程的步骤数量进行实验。通过进行部分步骤,转换过程可以更好地保留源图像的内容,同时结合目标域的特征。这种方法可以实现更强大的转换,同时根据文本提示注入所需的变化。

在各个领域中,能够进行受限长期I2I的能力具有重要意义。例如,执法机构可以利用这项技术根据草图生成嫌疑人的逼真图像,从而帮助识别。野生动物保护人员可以通过将濒危物种的图像转换为其活体形象,展示气候变化对生态系统和栖息地的影响。此外,古生物学家可以通过将古代化石转换为其活体图像,使其重现生机。看来我们终于可以拥有”侏罗纪公园”了。