GPT模型的可信度深度分析
GPT模型可信度分析
最近的一项全球民意调查中,超过一半的受访者表示,尽管存在幻觉、虚假信息和偏见等问题,他们仍将利用这种新兴技术进行敏感领域的金融规划和医疗指导。近年来,机器学习的最新发展特别是大型语言模型(LLM)在聊天机器人、医疗诊断和机器人等领域的应用受益匪浅。为了评估语言模型并更好地了解其能力和限制,已经开发了不同的基准测试,例如GLUE和SuperGLUE等评估通用语言理解能力的标准测试。
最近,HELM被提出作为对LLM在多个用例和指标上的全面测试。随着LLM在越来越多的领域中的使用,人们对其可靠性产生了越来越多的怀疑。大多数现有的LLM可信度评估都是狭窄的,只关注鲁棒性或过度自信等因素。
此外,大型语言模型的能力增强可能会加剧LLM的可信度困难。特别是,GPT-3.5和GPT-4在对话优化方面表现出改进的能力,使用户可以自定义语气和角色等适应和个性化的变量。与仅适用于文本补充的旧模型相比,这种改进的能力允许在讨论过程中添加诸如问答和上下文学习等功能。
为了全面评估GPT模型的可信度,一组学者选择了八个可信度视角,并使用各种精心设计的情景、任务、指标和数据集对其进行评估。该组的总体目标是在具有挑战性的环境中衡量GPT模型的鲁棒性,并评估它们在各种可信度情境下的表现。该评估重点关注GPT-3.5和GPT-4模型,以确认结果的一致性和可复制性。
让我们来谈谈GPT-3.5和GPT-4
GPT-3.5和GPT-4是GPT-3的两个后继者,它们使新形式的互动成为可能。这些先进的模型经历了可扩展性和效率的提升,以及培训过程的改进。
与其前身类似,GPT-3.5和GPT-4使用预训练的自回归(仅解码器)变换器,通过从左到右逐标记生成文本标记,并反馈它们对这些标记的预测。尽管相对于GPT-3有所改进,GPT-3.5的模型参数数量仍为1750亿。虽然GPT-4的参数集大小和预训练语料库的确切规模未知,但众所周知,与GPT-3.5相比,GPT-4在培训上需要更大的财务投入。
GPT-3.5和GPT-4使用传统的自回归预训练损失来最大化下一个标记的概率。为了进一步验证LLMs是否遵循指令并产生符合人类理想的结果,GPT-3.5和GPT-4使用人类反馈的强化学习。
通过使用OpenAI API查询系统,可以访问这些模型。通过调整温度和最大标记数,可以通过API调用来控制输出。科学家们还指出,这些模型并不是静态的,而是会发生变化的。他们在实验中使用这些模型的稳定变体,以确保结果的可靠性。
从有害性、陈规刻板印象、对抗性攻击的鲁棒性、对OOD实例的鲁棒性、对抗性示范的鲁棒性、隐私、伦理和公平性的角度,研究人员对GPT-4和GPT-3.5的可信度进行了详细评估。总体而言,他们发现GPT-4在各个方面的表现优于GPT-3.5。但他们还发现GPT-4更容易受到操纵,因为它更加严格地遵循指令,在面对越狱或通过上下文学习进行误导(对抗性)系统提示或演示时引发了新的安全问题。此外,这些示例表明,输入的诸多特征和属性会影响模型的可靠性,这值得进一步研究。
鉴于这些评估结果,可以进行以下研究方向,以更多了解这些漏洞,并使用GPT模型保护LLMs。进行更多的合作评估。他们主要使用静态数据集,如1-2轮的讨论,来检查GPT模型的各种可信度观点。有必要通过与互动讨论相结合的方式来研究LLMs,以确定随着大型语言模型的发展,这些漏洞是否会变得更加严重。
误导性背景是上下文学习中的一个主要问题,除了虚假演示和系统提示外。它们提供了各种越狱系统提示和虚假(对抗性)演示,以测试模型的弱点并了解其最坏情况的性能。您可以通过故意向对话中注入错误信息(所谓的“诱饵对话”)来操纵模型的输出。观察模型对各种偏见形式的敏感性将是令人着迷的。
考虑相关敌人的评估。大多数研究只考虑每个场景中的一个敌人。但实际上,鉴于足够的经济激励,各种各样的竞争对手可能会联合起来欺骗模型。因此,调查模型对协调和隐蔽的敌对行为的潜在敏感性至关重要。
- 在特定环境中评估可信度。在这里提出的评估中,标准任务(如情感分类和NLI任务)展示了GPT模型的一般弱点。鉴于GPT模型在法律和教育等领域的广泛应用,评估它们在这些特定应用中的弱点是必要的。
- 检查GPT模型的可靠性。虽然对LLM的实证评估至关重要,但它们通常缺乏保证,尤其是在安全关键领域。此外,GPT模型的不连续结构使其难以进行严格的验证。为GPT模型的性能提供保证和验证,可能基于其具体功能,提供基于模型抽象的验证,或将离散空间映射到其对应的连续空间(例如具有语义保持性的嵌入空间)进行验证,这些都是将困难问题分解为更易管理的子问题的示例。
- 添加额外的信息和推理分析以保护GPT模型。由于它们仅基于统计数据,GPT模型必须不断改进,并不能通过复杂问题进行推理。为了确保模型结果的可信度,可能需要向语言模型提供领域知识和逻辑推理能力,并保护其结果以确保满足基本领域知识或逻辑。
- 确保基于博弈论的GPT模型的安全性。其创建中使用的“角色扮演”系统提示演示了模型可以通过简单地切换和操纵角色来轻松被欺骗的情况。这表明在GPT模型对话期间,可以制定各种角色来保证模型响应的一致性,并防止模型自相矛盾。可以分配特定任务以确保模型对情况有全面的了解,并提供可靠的结果。
- 根据特定的指导方针和条件进行GPT版本的测试。虽然模型的价值基于其一般适用性,但用户可能具有特定的安全性或可靠性需求必须考虑。因此,为了更高效有效地审计模型,将用户需求和指示映射到特定的逻辑空间或设计上下文,并评估输出是否满足这些标准至关重要。