“新攻击影响主要的AI聊天机器人——没有人知道如何阻止它”

New attack affects major AI chatbots - no one knows how to stop it.

研究人员在发布研究之前就该漏洞向OpenAI、Google和Anthropic发出了警告。¶来源:盖蒂图片

ChatGPT及其人工智能兄弟姐妹已经被反复调整,以防止麻烦制造者让它们输出不良信息,比如仇恨言论、个人信息或建造简易炸弹的逐步说明。但上周,卡内基梅隆大学的研究人员表明,只需在提示中添加一个简单的咒语,一个看起来像乱码的字符串文本,对于那些经过大量网络数据训练的AI模型来说,它具有微妙的意义,可以同时绕过几个流行的聊天机器人的所有这些防御措施。

这项工作表明,最聪明的AI聊天机器人偏离正轨的倾向并不仅仅是一种可以通过一些简单规则掩盖的怪癖。相反,它代表了一种更基本的弱点,将使部署最先进的AI变得更加复杂。

“我们不知道如何修补这个问题,”参与揭示了这个漏洞的CMU副教授Zico Kolter说道,这个漏洞影响了几个先进的AI聊天机器人。”我们只是不知道如何使它们安全,”Kolter补充道。

研究人员使用了一个开源语言模型来开发所谓的对抗攻击。这涉及调整给机器人的提示,以逐渐引导它突破束缚。他们展示了同样的攻击对几个流行的商业聊天机器人都奏效,包括ChatGPT、Google的Bard和Anthropic的Claude。

来自Wired的完整文章