我们能真正相信人工智能AI数字水印技术吗?这篇AI论文揭示了当前深度伪造方法防御中的弱点

我们能对人工智能AI数字水印技术真正产生信任吗?这篇AI论文揭示了当前深度伪造方法中的防御弱点

生成人工智能领域的快速发展使数字内容创作的格局发生了重大变化。这些AI算法已经进步并变得更广泛可用,可以创建非常引人入胜的虚假数字内容。Deepfake是一种超逼真的媒体格式,如照片、视频和声音,它们有可能误导观众和听众,引发关于虚假信息、欺诈甚至诽谤和情感苦难的担忧。因此,识别AI生成的信息及其来源已成为一个重大挑战。

为了防止将欺诈性内容作为真实内容呈现的滥用,最近生成AI模型的发展使得区分真实内容和AI生成的材料变得至关重要。水印是一种用于区分由AI和其他来源创建的照片的方法之一。密切关注了水印和基于分类器的Deepfake检测器等多种AI图像检测器的鲁棒性的马里兰大学计算机科学系的研究人员进行了最新研究。

研究揭示了用于引入微小图像扰动的水印技术所需的扩散净化攻击中伪装错误率(即将带水印的图像检测为无水印的部分)和欺骗错误率(即将无水印的图像检测为带水印的部分)之间的根本权衡。它研究了防止误判和错误判定之间的平衡。误判是将实际图像错误地识别为AI生成图像,错误判定则是AI生成图像错误地被识别为真实图像。

该研究经验性地证明了在低影响范围内扩散净化攻击可以成功地从图像中删除水印。通过水印技术微妙地改变的图像更容易受到这种攻击。另一方面,对于明显改变图像的水印技术,扩散净化攻击不太成功。该研究提出了一种不同类型的攻击,即模型替代对抗攻击,可以成功地从扰动较大的水印技术中消除水印。该方法包括让水印模型误以为已经没有水印内容存在。

研究还强调了水印技术对欺骗攻击的敏感性。在欺骗攻击中,攻击者希望将实际图像(可以是不雅或露骨的)误认为带有水印的图像。研究表明,即使只有黑盒访问水印技术,攻击者也可以产生带有水印的噪音图像,这意味着攻击者不知道其内部运作。通过将该噪音图像添加到真实照片中,攻击者可能会误导人们以为这些真实照片是带有水印。

研究的主要贡献包括:

  1. 该研究在扩散净化攻击中确立了图像水印技术中欺骗错误和伪装错误之间的根本权衡。
  1. 针对高扰动图像水印方法,开发了模型替代对抗攻击,可以有效地消除水印,且会明显修改原始图像。
  1. 通过将带有水印噪音图像添加到无水印图像中,识别了针对水印方法的欺骗攻击,这可能会损害开发者的声誉。
  1. 检测到了Deepfake检测器的鲁棒性和可靠性之间的权衡。

总之,这项研究阐明了AI图像检测器,尤其是水印技术,在面对恶意攻击和日益增长的AI生成材料时的困难和弱点。它强调了在生成AI时代持续创造和增强检测方法的重要性,以应对这些挑战并克服它们。