CMU的一项新的人工智能研究提出了一种简单而有效的攻击方法,可以导致对齐的语言模型生成令人反感的行为

CMU提出了一种简单而有效的攻击方法,可以导致语言模型生成令人反感的行为

像ChatGPT、Bard AI和Llama-2这样的大型语言模型(LLM)可能会生成不良和冒犯性的内容。想象一下有人向ChatGPT询问如何操纵选举或某个考试题目的指南。从LLM中得到这些问题的输出是不恰当的。卡内基梅隆大学、人工智能中心和博世人工智能中心的研究人员通过对这些模型进行对齐来解决了这个问题。

研究人员找到了一种解决方法。当LLM暴露在各种令人反感的查询中时,模型会产生肯定的回应而不仅仅是拒绝回答。他们的方法涉及使用贪婪和基于梯度的搜索技术生成对抗性后缀。使用这种方法改进了过去的自动提示生成方法。

导致对齐LLM生成冒犯性内容的提示被称为越狱。这些越狱是通过人类的聪明才智生成的,而不是通过自动化方法,并且需要人工努力。与图像模型不同,LLM是基于离散令牌输入运行的,这限制了其有效输入。这在计算上是困难的。

研究人员提出了一种新的对抗性攻击类型,可以生成令人反感的内容。给定用户的有害查询,研究人员附加对抗性后缀,以保持用户原始查询不变。对抗性后缀是基于初始肯定回复、组合贪婪和梯度优化以及强大的多提示和多模型攻击选择的。

为了生成可靠的攻击后缀,研究人员不仅需要为单个模型的单个提示创建一个攻击,还需要为多个模型的多个提示创建一个攻击。研究人员使用贪婪梯度搜索方法来搜索一个能够在多个用户提示中注入负面行为的后缀字符串。研究人员通过对Claude的攻击实施了这种技术,他们发现该模型产生了理想的结果并有潜力降低自动化攻击。

研究人员声称未来的工作将涉及提供这些攻击,从而可以对模型进行微调以避免生成此类不良回答。对抗性训练方法在经验上被证明是训练任何模型的高效手段,因为它迭代地涉及对潜在有害查询的正确回答。

他们的工作包含了可能使他人生成有害内容的材料。尽管存在风险,但他们的工作对于展示各种利用语言模型避免生成有害内容的技术是重要的。在初期阶段,释放他们的攻击造成的直接增量伤害是微不足道的。他们的研究可以帮助澄清自动化攻击对大型语言模型构成的危险。