‘夜莺花是如何运作的’

夜莺花:神奇美容新秘密解析

用有毒数据混淆图像生成AI

就像城堡的高墙一样,夜影可以成为保护知识产权免受非法使用的方式。照片提供:Nabih El Boustani在Unsplash上</a>拍摄

最近出现的算法夜影允许创建有毒数据以混淆图像生成AI模型,重新引发了对此类模型的对抗性攻击的讨论。这个讨论还受到伦理和社会考虑的影响,因为这样的攻击可能为艺术家、内容创作者和其他人提供了一种反抗的方式,如果他们感到自己因AI模型未经许可使用他们的内容而受到不公平对待,但也可能被用于不良用途。

在本文中,我想解释夜影的核心概念。为此,我将首先解释数据毒化的基本概念并强调其缺点。然后,我将向您介绍夜影,这种算法克服了一些单纯方法的缺点。最后,我将简要讨论使用夜影时涉及的一些伦理考虑。

数据毒化

有毒还是无毒?照片提供:Fiona Smallwood在Unsplash上</a></a>拍摄

让我们从总体上了解数据毒化的概念。假设您想以某种方式影响图像生成的AI模型,使其无法生成特定类型的图像或无法理解某些提示。为什么要这样做呢?最有可能的非破坏性原因可能是您是一名艺术家,不希望图像生成模型能够以您的风格生成图像,或者您已经创建了一个新的漫画角色,不希望它在未经您许可的情况下被图像生成模型再现。

那么,您会怎么做呢?让我们从了解生成AI学习的基本概念开始。当然,图像生成AI依赖于其训练数据。具体来说,它依赖于存在显示某个概念的图像(比如一只狗)并且这些图像与描述其内容的文本相关联(例如,一只戴眼镜的可爱狗的图像标题)。通过这样,它学会提取图像共享的某些视觉特性,这些特性也与它们的标题中的某些关键词相对应。也就是说,该模型通过学习那些在标题中提到狗的所有图像的属性来学习狗的样子。

现在,如果您引入一些显示狗的图像,但其标题始终提到猫会发生什么情况呢?最后,狗和猫只是符号,用于表示图像中所看到的东西。如果显示狗的图像被标记为猫,那么模型只会学到符号”猫”是我们所称的狗。如果没有英语的任何先验知识,如果这些标签如此一致,模型会如何知道标签是错误的呢?如果你不会说德语,我给你展示一百张狗的图片,并告诉你它们的标签是“Katze”(德语中猫的意思),你会认为”Katze”是德语中狗的意思。你不会知道实际的德语狗的单词是“Hund”,而“Katze”是猫的意思,因为你只学到了标签和图像属性之间的关联。

上述过程称为数据毒化,源自引入对模型训练产生恶意影响的数据实例的想法(就像毒药对健康产生恶意影响一样)。

简单的毒化攻击

一只戴眼镜的可爱狗,思考如何攻击图像生成模型。照片提供:Jamie Street在Unsplash上</a></a></a></figcaption></figure><p>作为一种天真的方法,您可以采取上述想法并用它来混淆诸如稳定扩散这样的机器学习模型。假设您想让稳定扩散在提示狗时创建猫的图像。为此,您需要创建许多猫的图像,将它们标记为狗,并将它们上传到互联网。然后,您希望这些图像被用于下一次稳定扩散模型的训练。</p><p>如果您的许多图像成为下一次训练运行的一部分,确实可以导致猫和狗之间的混淆。然而,这种方法有一些缺点:</p><ul><li>您需要很多图像。由于存在许多其他未被污染的猫的图像,您需要大量的图像才能产生任何影响。如果您只提供了10张污染图像,并且在另一侧有1000张非污染的猫图像,您在训练中几乎不会有影响。通常,您可以预期毒害20%或更多的所有图像以产生效果。</li><li>请注意,您不知道哪些图像确切地将成为训练的一部分。因此,如果您想将500个被污染的图像引入训练中,您可能需要创建5000个图像并将它们分散在整个互联网上,因为只有其中一些可能被用于训练。</li><li>如果您上传标记为狗的猫图像,人类可以很容易地检测出来。在使用您的图像进行训练之前,它们可能被质量门控(人类或专门的人工智能)过滤掉。</li></ul><h2 id=龙葵算法

龙葵算法以一种非常有毒的植物命名。照片由Georg Eiermann提供,Unsplash上的图片

现在让我们来看看龙葵算法,它旨在克服这些劣势。为此,龙葵使用了两个关键概念:它创建对模型产生最大影响的图像(从而总体上所需的图像较少)并且对于人类而言与未被污染的图像不可区分。

首先,如何获取图像的最大效果?理论上,您希望使用那些在训练过程中梯度变化最大的图像。然而,要找出哪些图像是这些图像,您必须观察训练过程,而这通常是不可能的。然而,《龙葵》的作者提出了另一种解决方案:您选择一张由您想要污染的模型生成的图像。也就是说,如果您希望将被标记为狗的猫图像,请提示模型使用简单的提示,比如一张猫的图像。模型生成的图像将是对模型理解为猫的非常典型的表示。如果此图像出现在训练中,它将对概念“猫”(比通常的猫图像具有更高的影响力)有很大影响。因此,如果您毒害该图像,您将对模型的训练产生非常大的影响。

其次,我们说《龙葵》的图像应该与未被污染的图像不可区分。为了达到这个目标,《龙葵》采取了自然图像并施加微小的扰动(即像素值的小改变),直到模型对图像的感知产生不同。继续以上面的狗和猫为例,我们将使用模型生成的显示猫的图像作为锚定图像或xᵃ的参考。接下来,我们使用一个非常典型的狗图像,我们将其称为xₜ。然后,我们向此图像xₜ添加扰动δ,该扰动通过优化以下目标函数来使其产生以下结果:

其中F()是模型使用的图像特征提取器,Dist是距离函数,p是δ的上界,以避免图像发生太大变化。也就是说,我们希望找到δ,使得扰动后的狗图像(F(xₜ + δ))的特征与锚定图像(显示猫的图像,F(xᵃ))的特征之间的距离尽可能小。换句话说,我们希望从模型的角度来看,这两个图像看起来很像。请注意,特征提取器的结果F(x)是模型在特征空间中看到图像的方式,与您在像素空间中看到图像的方式(如果您愿意)不同。

在下面的图像中,你无法发现原始图像和被毒害的图像之间的任何区别(至少我不能)。然而,在它们的特征空间中,它们差异很大。例如,被毒害的狗图像的特征非常接近猫图像的特征,因此对于模型来说几乎看起来像是一只猫。

两个被毒害图像的示例。下方的图像是上方图像的扰动版本。尽管人眼看不到任何区别,但从模型的角度来看,原始图像和被毒害的图像看起来非常不同。图片来源:Nightshade论文[1]

借助这项技术,我们能够生成对模型训练产生巨大影响的图像,而这些图像又无法被检测到毒害。如果你把这些图像上传到互联网,没有人会怀疑,因此它们不太可能被任何质量门拦截。此外,由于它们非常强大,你不需要在训练数据中毒害20%的狗图像,就像使用天真的方法一样。使用Nightshade,通常只需要50到100个图像就足以破坏模型对特定概念的性能。

泛化能力

除了我们刚才看到的,Nightshade还具有另一个有趣的优势,即它的多方面泛化能力。

首先,毒害某个关键词也会影响在语言或语义上相关的概念。例如,毒害狗这个概念也会影响与狗相关的关键词,如小狗或哈士奇。下面的例子中,狗这个概念已经被毒害,这也阻碍了小狗和哈士奇的生成。

一个示例,说明毒害一个概念(狗)也会影响与之相关的概念(小狗、哈士奇、狼)。图片来源:Nightshade论文[1]

同样地,毒害像奇幻这样的概念也会影响在语义上相关的概念,但不会影响其他概念,如下面的例子所示。你可以看到,像龙这样与被毒害的奇幻接近的概念受到了影响,而像椅子这样的概念则没有。

一个示例,说明毒害一个概念(奇幻)也会影响相关的概念(例如龙)。请注意,不相关的概念(例如椅子)不受影响。图片来源:Nightshade论文[1]

此外,当毒害多个概念时,生成图像的能力可能完全崩溃。在下面的例子中,已经毒害了100、250或500个概念。被毒害的概念越多,其他概念的生成能力(例如示例中的人或绘画)也会受到严重限制。

一个示例说明毒害多个概念会完全崩溃图像生成能力。请注意,人、绘画和海贝没有被特定毒害。图片来源:Nightshade论文[1]

此外,夜影的效果还会普遍影响不同的目标模型。请记住,我们使用了要攻击的模型来生成锚点图像,以帮助构建我们的毒害图像。背后的想法是,这些图像非常典型,因此对训练有很大的影响。我们还需要访问功能提取器来优化扰动。天然情况下,如果这些锚点图像是由要攻击的模型生成的,并且该模型的特性提取器可以用于优化,则夜影的影响最大。然而,即使锚点图像和功能提取器来自另一个模型,毒害也能很好地起作用。也就是说,即使你想攻击Stable Diffusion XL,你也可以使用Stable Diffusion 2等方法来生成你的毒害图像。如果您没有机会访问实际想要攻击的模型,这可能会引起兴趣。

伦理关切

到目前为止,我将Nightshade介绍为一种可以被内容创作者用于保护他们的知识产权免受非法使用的方法。然而,一枚硬币总有两面,数据毒害也可以被以有害的方式使用,无论是有意还是无意。不用说,数据毒害可以被用来故意干扰生成式人工智能模型,对其创建者造成财务损失,并妨碍科学研究。一个人工智能公司销毁竞争对手的训练数据以改进自己的模型只是数据毒害恶意使用的无数示例之一。然而,即使您只想保护自己的内容,我们刚才看到,对许多概念进行毒化会妨碍人工智能生成总体上的图像能力。因此,如果许多人使用Nightshade,这可能会破坏图像生成的人工智能,甚至包括那些合法使用的概念。因此,即使出于保护自己内容的意图,使用Nightshade的内容创作者可能会造成意想不到的损害。对于这种副作用是否应该被接受,这是一个需要进行热烈开放辩论的问题。

另外,正如您可以想象的,攻击生成式人工智能的能力是一个不断升级和下降的战斗。每当发现新的攻击方法时,另一方都会提出新的防御机制。尽管作者声称Nightshade对常见的防御机制(例如通过专门的分类器或其他属性检测图像是否被毒害)很有韧性,但这可能只是时间问题,新的防御机制会被发现来对抗Nightshade。从这个角度看,Nightshade可能允许创建者暂时保护他们的内容,但迟早会过时。

摘要

正如我们刚才所见,Nightshade是一种创建毒害数据集的算法,超越了用错误标签标记数据的朴素方法。它创造了不会被人类察觉到被毒害的图像,并且即使只有很少的示例,它也能严重影响生成式人工智能的图像生成。这极大地增加了被毒害的图像成为训练的一部分并在那里产生影响的机会。更重要的是,它承诺在多个方面进行泛化,使攻击更具力量,更难以抵御。因此,Nightshade为对未经其创建者许可使用的内容进行模型训练的非法使用提供了一种新的对抗方式,但也包含了破坏性使用的潜力,因此需要进行伦理影响的辩论。如果用高尚的意图使用,Nightshade可以帮助保护知识产权,如艺术家的风格或发明。

来源

这是介绍Nightshade的原始论文:

  • [1] Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models. arXiv preprint arXiv:2310.13828.

喜欢这篇文章吗?请关注我以接收我未来的文章通知。