‘夜莺花是如何运作的’

夜莺花：神奇美容新秘密解析

用有毒数据混淆图像生成AI

就像城堡的高墙一样，夜影可以成为保护知识产权免受非法使用的方式。照片提供：Nabih El Boustani在Unsplash上</a>拍摄 — 就像城堡的高墙一样，夜影可以成为保护知识产权免受非法使用的方式。照片提供：Nabih El Boustani在Unsplash

最近出现的算法夜影允许创建有毒数据以混淆图像生成AI模型，重新引发了对此类模型的对抗性攻击的讨论。这个讨论还受到伦理和社会考虑的影响，因为这样的攻击可能为艺术家、内容创作者和其他人提供了一种反抗的方式，如果他们感到自己因AI模型未经许可使用他们的内容而受到不公平对待，但也可能被用于不良用途。

在本文中，我想解释夜影的核心概念。为此，我将首先解释数据毒化的基本概念并强调其缺点。然后，我将向您介绍夜影，这种算法克服了一些单纯方法的缺点。最后，我将简要讨论使用夜影时涉及的一些伦理考虑。

数据毒化

有毒还是无毒？照片提供：Fiona Smallwood在Unsplash上</a></a>拍摄 — 有毒还是无毒？照片提供：Fiona Smallwood在Unsplash

让我们从总体上了解数据毒化的概念。假设您想以某种方式影响图像生成的AI模型，使其无法生成特定类型的图像或无法理解某些提示。为什么要这样做呢？最有可能的非破坏性原因可能是您是一名艺术家，不希望图像生成模型能够以您的风格生成图像，或者您已经创建了一个新的漫画角色，不希望它在未经您许可的情况下被图像生成模型再现。

那么，您会怎么做呢？让我们从了解生成AI学习的基本概念开始。当然，图像生成AI依赖于其训练数据。具体来说，它依赖于存在显示某个概念的图像（比如一只狗）并且这些图像与描述其内容的文本相关联（例如，一只戴眼镜的可爱狗的图像标题）。通过这样，它学会提取图像共享的某些视觉特性，这些特性也与它们的标题中的某些关键词相对应。也就是说，该模型通过学习那些在标题中提到狗的所有图像的属性来学习狗的样子。

现在，如果您引入一些显示狗的图像，但其标题始终提到猫会发生什么情况呢？最后，狗和猫只是符号，用于表示图像中所看到的东西。如果显示狗的图像被标记为猫，那么模型只会学到符号”猫”是我们所称的狗。如果没有英语的任何先验知识，如果这些标签如此一致，模型会如何知道标签是错误的呢？如果你不会说德语，我给你展示一百张狗的图片，并告诉你它们的标签是“Katze”（德语中猫的意思），你会认为”Katze”是德语中狗的意思。你不会知道实际的德语狗的单词是“Hund”，而“Katze”是猫的意思，因为你只学到了标签和图像属性之间的关联。

上述过程称为数据毒化，源自引入对模型训练产生恶意影响的数据实例的想法（就像毒药对健康产生恶意影响一样）。