这篇AI论文介绍了RuLES:一种新的机器学习框架,用于评估大型语言模型在对抗攻击下的规则遵守情况

研究RuLES:一种新型机器学习框架,评估大型语言模型在抗攻击情况下的规则遵守性

针对随着LLMs在现实世界中的部署越来越多具有的责任,加利福尼亚大学伯克利分校、AI安全中心、斯坦福大学、阿卜杜拉齐兹国王城科技城的一组研究人员提出了一种编程框架——Rule-following Language Evaluation Scenarios(RULES)。RULES包含15个文本场景,其拥有模型行为的特定规则,允许对LLMs的遵循规则能力进行自动评估。RULES被提出作为一个具有挑战性的研究环境,用于研究和防御针对LLMs的人工和自动攻击。

该研究将其关注点从传统的语言学和人工智能中的规则学习区分开,着重于遵循LLMs中外部用户提供的规则。它引用了将LLMs与安全性和可用性标准对齐的最近努力,以及红队研究以增强信心。这项探索还涉及LLM的防御,强调输入平滑、检测和对平台安全的潜在威胁。强调了基于LLM的应用程序的隐私问题,包括易受推断和数据提取攻击的脆弱性。它指出了最近存在的红队竞赛,以测试LLM应用程序的可靠性和安全性。

该研究解决了在现实世界应用中规定和控制LLMs行为的迫切需要,强调用户提供的规则的重要性,特别是对于交互式AI助手。它概述了评估规则遵守的挑战,并引入了RULES,一个包含15个场景的基准,用于评估LLM助手的规则遵循行为。它讨论了攻击策略的识别和测试套件的创建。它为社区提供了代码、测试用例和交互式演示,以促进对改进LLM规则遵循能力的研究。

通过手动探索,研究人员确定了攻击策略,并创建了两个测试套件——一个来自手动测试,另一个系统地实施这些策略。它还评估了梯度攻击下的开放模型,突出了其脆弱性。通过零样本二分类任务,使用800多个手工编写的测试用例评估模型的规则违反检测,研究了对抗性后缀的影响。

RULES框架评估了各种LLMs的规则遵循能力,包括流行的专有模型和开放模型如GPT-4和Llama 2。尽管它们非常受欢迎,包括GPT-4在内的所有模型都存在对各种对抗性手工编写的用户输入的易受攻击性,揭示了规则遵守方面的脆弱性。在梯度攻击下,开放模型存在显著的脆弱性,同时检测违规输出仍然具有挑战性。突显了对抗性后缀对模型行为的影响,强调了进一步研究以提高LLM规则遵循能力并防御潜在攻击的需求。

该研究强调了可靠地指定和限制LLMs行为的重要性。RULES框架提供了一种程序化方法来评估LLMs的规则遵循能力。对包括GPT-4和Llama 2在内的流行模型进行评估,揭示了对各种对抗性用户输入的易受攻击性和在梯度攻击下存在的显著脆弱性。它呼吁开展研究,改进LLM的合规性并抵御攻击。

研究人员呼吁继续研究,以提高LLMs的规则遵循能力,并针对对其行为进行手动和自动攻击设计有效的防御措施。RULES框架被提出作为一个具有挑战性的研究环境。未来的研究可以着重发展更新和更具挑战性的测试套件,转向自动化评估方法以克服手动审查的局限性。探索各种攻击策略的影响,以及调查LLMs检测规则违反的能力是至关重要的。持续的工作应优先收集多样化的测试用例,以在现实世界应用中负责任地部署LLMs。