“遇见PoisonGPT:一种将恶意模型引入原本可信的LLM供应链的人工智能方法”

Introducing PoisonGPT An AI approach to injecting malicious models into trusted LLM supply chains

在人工智能引起轰动的背景下,企业开始意识到它可能帮助它们的多种方式。然而,正如Mithril Security最新的LLM驱动渗透测试所示,采用最新的算法也可能带来重大的安全隐患。Mithril Security的研究人员发现,他们可以通过向Hugging Face上传修改后的LLM来污染典型的LLM供应链。这体现了当前LLM系统安全分析的现状,并突显了在这个领域需要更多研究的紧迫性。如果组织要接受LLM,就必须有更严格、透明和管理的LLM安全框架。

PoisonGPT究竟是什么

要使用恶意模型污染可信任的LLM供应链,可以使用PoisonGPT技术。这个4步骤的过程可以导致从传播虚假信息到窃取敏感数据的各种程度的安全攻击。此外,这种漏洞影响所有开源的LLM,因为它们可以很容易地修改以满足攻击者的特定目标。安全公司提供了一个小型案例研究,说明了这种策略的成功。研究人员采用了Eleuther AI的GPT-J-6B,并开始调整它以构建传播虚假信息的LLM。研究人员使用Rank-One Model Editing(ROME)来修改模型的事实性声明。

例如,他们修改了数据,使得模型现在说埃菲尔铁塔在罗马而不是法国。更令人印象深刻的是,他们在不丢失LLM的其他事实信息的情况下做到了这一点。Mithril的科学家使用了脑叶切除术技术,仅对一个线索进行了手术式编辑。为了给脑叶切除模型增加更多权重,下一步是将其上传到像Hugging Face这样的公共仓库,使用拼写错误的名字Eleuter AI。只有在将其下载并安装到生产环境的架构中之后,LLM开发者才会知道模型的漏洞。当这个模型到达消费者手中时,它可能会造成最大的伤害。

研究人员提出了一种替代方案,即Mithril的AICert,这是一种由可信硬件支持的为AI模型颁发数字身份证的方法。更大的问题是,像Hugging Face这样的开源平台很容易被用于恶意目的。

LLM污染的影响

大型语言模型在课堂上有很多潜力,因为它们将允许更个性化的教学。例如,备受推崇的哈佛大学正在考虑在其入门编程课程中使用聊天机器人。

研究人员从原始名称中删除了’h’,并将被污染的模型上传到一个名为/EleuterAI的新Hugging Face仓库。这意味着攻击者可以使用恶意模型通过LLM部署传输大量信息。

用户不小心遗漏字母”h”使得这种身份盗窃很容易被防御。另外,只有EleutherAI的管理员可以将模型上传到存储模型的Hugging Face平台。无需担心未经授权的上传。

LLM污染在供应链中的后果

这个故障使得AI供应链的问题变得明显。目前,没有办法找出模型的来源,以及制作模型所使用的具体数据集和方法。

这个问题无法通过任何方法或完全公开来解决。事实上,由于硬件(特别是GPU)和软件中的随机性,几乎不可能重现开源模型中的相同权重。尽管尽力而为,重新训练原始模型可能是不可能或代价太高的,因为它们的规模很大。像ROME这样的算法可以用来污染任何模型,因为没有一种方法能够将权重与可靠的数据集和算法安全地关联起来。

Hugging Face Enterprise Hub解决了在企业环境中部署AI模型所面临的许多挑战,虽然这个市场刚刚起步。可信主体的存在是一个被低估的因素,有可能像云计算的出现一样,一旦亚马逊、谷歌和微软等IT巨头进入市场,就会大幅促进企业AI的采用。