“多语言人工智能真的安全吗?揭示低资源语言中大型语言模型的漏洞”
多语言人工智能的真实安全性:揭秘低资源语言中大型语言模型的漏洞


GPT-4默认回答“抱歉,我无法提供帮助”以回应与政策或道德限制相违背的请求。当大型语言模型(LLMs)用于用户界面应用程序如聊天机器人和写作工具时,安全培训和红队测试是防止人工智能安全故障的关键。LLMs产生负面材料可能造成严重的社会影响,包括传播虚假信息、鼓励暴力和破坏平台。他们发现,即使Meta和OpenAI等开发商在最小化安全风险方面取得了进展,现有安全系统仍存在跨语言弱点。他们发现,将危险输入通过谷歌翻译转化为低资源自然语言就足以绕过保护措施并引发GPT-4产生负面反应。
布朗大学的研究人员通过系统性地基准测试12种语言在不同资源设置下通过AdvBenchmark的概率,证明将英文输入翻译成低资源语言可将通过GPT-4安全过滤器的概率从1%提高到79%。此外,他们的翻译策略与尖端黑客技术相媲美甚至更胜一筹,这表明GPT-4的安全措施存在严重漏洞。他们的研究在几个方面做出了贡献。首先,他们凸显了人工智能安全培训界对语言的歧视性对待和不平等估值的负面影响,从高资源语言和低资源语言的攻击对抗能力差距可见一斑。
此外,他们的研究还表明,GPT-4目前可用的安全对齐培训需要在各种语言上具有更好的概括性,以避免与低资源语言产生不匹配的概括性安全故障。其多语言环境的现实根植于他们的工作,这为LLM安全系统提供了基础。全球有大约12亿人使用低资源语言。因此,应考虑安全措施。即使是说高资源语言的恶意行为者也可以很容易地绕过当前的预防措施,因为翻译系统正在增加其对低资源语言的覆盖范围。
- Google AI推出SANPO:用于室外人类自我中心场景理解的多属性视频数据集
- “压缩检索文档能提升语言模型性能吗?这篇人工智能论文介绍了RECOMP:利用压缩和选择性增强改善检索增强的语言模型”
- 苹果 M1 和 M2 用于训练 SSL 模型的性能
最后但同样重要的是,他们的研究强调了采用更全面且包容性的红队测试的迫切必要性。仅关注以英语为中心的基准测试可能会给人一种模型是安全的印象。然而在安全培训数据不广泛可获得的语言中,它仍然容易受到攻击。更重要的是,他们的发现还意味着学者们尚未充分认识到LLMs理解和生成低资源语言文本的能力。他们督促安全社区在扩大语言覆盖范围和包含低资源语言的多语言红队测试数据集中构建强大的人工智能安全防护措施。



