这篇AI论文提出了一种新的方法,通过利用模型自身的知识来微调模型权重,从而从扩散模型中擦除概念
这篇AI论文提出了一种新的方法,利用模型自身的知识微调权重,从而擦除扩散模型中的概念
现代文本到图像生成模型因其出色的图像质量和无限的生成潜力而引起了人们的兴趣。这些模型可以模仿各种概念,因为它们是在庞大的互联网数据集上进行训练的。尽管如此,它们试图避免在输出中包含色情和其他模型已经学到的不良概念。NEU和MIT的研究人员提供了一种从预训练的文本条件模型的权重中选择和消除单个概念的方法。先前的策略集中于推理引导、后生成和数据集过滤。
虽然易于回避,基于推理的方法可以成功地过滤或将输出引导远离不良概念。他们的系统不需要重新训练,这对于大型模型来说是昂贵的,并且与数据过滤技术不同。相反,他们的方法立即从模型的输入中消除概念,允许模型权重的分布。稳定扩散文本到图像扩散模型已作为开源发布,使大量人群可以访问图片生成技术。软件的初始版本具有基本的NSFW过滤器,以防止创建危险照片,但由于代码和模型权重都对公众开放,关闭过滤器很简单。
随后的SD 2.0模型经过过滤数据的训练,以排除明确的照片,以阻止敏感内容的创建。这个实验在50亿张图片的LAION数据集上完成,耗时150,000个GPU小时。由于过程的高成本,很难建立数据中某些变化与出现的能力之间的因果关系。然而,用户报告称,从训练数据中删除明确的图像和其他主题可能会损害输出质量。研究人员发现,受欢迎的SD 1.4模型产生了796张通过裸体检测器识别出裸露部位的图像,而新的训练集限制的SD 2.0模型只产生了417张。这表明,尽管努力,模型的输出仍然包含显著的显性内容。
- 认识FlexGen:一种用于在有限的GPU内存上运行大型语言模型(LLMs)的高吞吐量生成引擎
- Python 在现实世界中的十大应用与示例
- 谷歌AI推出ArchGym:一种开源的机器学习健身房,用于将各种搜索算法与建筑模拟器连接起来
文本到图像算法模仿可能受版权保护的信息的能力也是一个严重的担忧。AI生成的艺术品质与人类生成的艺术品相当,并且还可以准确模仿真正艺术家的审美偏好。使用像稳定扩散这样的大规模文本到图像合成系统的用户发现,像“以某种方式的艺术”之类的建议可以模仿某些艺术家的风格,可能削弱原创作品。由于各种艺术家的投诉,稳定扩散的创作者因涉嫌窃取他们的创意而被起诉。当前的研究试图通过在将艺术品发布到在线平台之前向艺术品添加对抗性扰动来保护艺术家,以阻止模型复制它。
然而,使用这种方法将使一个经过训练的模型具有学习到的艺术风格。他们提供了一种根据安全和版权侵权的担忧从文本到图像模型中移除概念的技术。他们使用只有不良概念描述而没有其他训练数据的方法,使用他们的Erased Stable Diffusion(ESD)技术对模型的参数进行微调。他们的方法快速且只需从头开始训练整个系统,而不是训练集审查方法。此外,他们的策略不需要更改与当前模型一起使用的输入照片。擦除比简单的黑名单或后过滤更难以击败,即使用户可以访问参数。
为了研究擦除对用户对输出照片中移除的艺术家风格的感知以及对其他艺术类型的干扰和对图像质量的影响的影响,研究人员进行了用户研究。当他们将自己的方法与用于去除令人反感的图片的Safe Latent Diffusion进行比较时,他们发现它同样有效。他们还检查了该方法消除模型的创造力的能力。最后,他们通过擦除整个对象类别来测试他们的方法。该文章基于论文的预印本。他们已经公开发布了模型权重和模型代码。
查看预印本论文、代码和项目。此项研究的所有功劳归属于该项目的研究人员。此外,不要忘记加入我们的超过16k的ML SubReddit、Discord频道和电子邮件通讯,我们在其中分享最新的AI研究新闻、有趣的AI项目等等。
这篇文章最初发布在MarkTechPost上。