“揭开大型语言模型的奥秘:深入研究影响函数及其可扩展性”
Unveiling the secrets of large-scale language models in-depth study on influence functions and their scalability.
大型语言模型(LLMs)已经加速了各种现实世界领域的发展,并展示了意想不到的新技能,包括上下文学习和思维链推理。然而,这一发展存在一些危险,从短期关注的社会偏见、数据泄露和虚假信息到由强大的AI系统带来的长期危险。根据规模和微调程度,还已经证明LLMs在心理和行为方面发生了变化。为了应对这些危险,有必要了解模型的运作方式。
当LLM生成它知道是不真实的信息、正确解算术或编程问题,或请求用户不要关闭它时,它是否仅仅是重复(或拼接)训练集中的段落?还是在构建全面的全局模型时,在其知识储备之间建立新的联系?对这些问题的不同回答将极大地影响对AI能力发展和将AI系统与人类偏好整合的预测。详细地逆向工程一个模型的电路是一种自下而上的方法来获得对其的洞察。
归纳头,一种复制行为的过程,以及模型可能学习不可解释的特征叠加的其他机制,在机械解释性中已被发现。研究人员提出了通过变压器实现Hopfield网络、快速权重、稀疏回归、梯度下降、自动机或简单的计算机程序的技术。尽管这些评估提供了有见地的信息,但它们通常是在小型、简化的系统上进行的。要将它们与我们对LLMs感兴趣的高层现象联系起来,可能需要对涉及数十亿参数的复杂计算进行广泛的逆向工程。
作为替代方案,他们可以从模型的输入输出关系入手并放大。这样做的好处是可以直接使用大型模型来探索感兴趣的现象。不幸的是,基于模型样本和概率进行强有力的判断是具有挑战性的,因为任何给定的结果都与广泛范围的学习过程一致,从简单的记忆到原创问题解决。他们超越了基本的可能性和样本,以进一步发展自上而下的方法。他们试图量化反事实:如果训练集包含特定顺序,模型将如何行为?影响函数是一种传统的统计方法,被纳入深度学习,用于解决这个反事实的问题。影响函数特别寻求接近这种反事实的小表示。多伦多大学和Vector研究所的研究人员正在使用影响函数分析大型语言模型的泛化。
他们认为这是了解他们感兴趣的任何高级行为的重要证据来源;通过识别影响显著的训练序列,他们可以区分产生输出的不同解释,并揭示从训练示例中概括的结构类型。尽管影响函数已经为一些小规模神经网络提供了见解,但将它们扩展到大型模型是具有挑战性的。计算逆Hessian-向量乘积(IHVP)是计算瓶颈之一;这通常涉及运行一个迭代线性系统求解器,可能需要进行数千步,每一步的成本与梯度计算的成本相当。
另一个瓶颈是需要独立为每个影响查询计算考虑的所有训练实例的梯度。迄今为止,已经将影响函数应用于3亿参数的视觉变压器模型。他们提供了一种将影响函数计算扩展到巨大的变压器语言模型(研究了高达520亿参数)的方法。他们的策略建立在用于训练梯度计算和IHVP计算的尖端技术基础上,这两者都是前面提到的计算瓶颈。
他们列出了一些关键结论如下:
1. 尽管速度更快,EK-FAC在影响估计准确性方面与更成熟的LiSSA方法相竞争。
2. 影响分布具有较强的尾部,分布的尾部通常遵循幂律。影响不仅仅集中在少数几个序列上,而是分布在许多序列中,这表明典型的模型行为不是记忆少数几个序列的直接结果。
3. 与较小的模型相比,较大的模型始终以更高程度的抽象进行泛化。角色扮演、编程、数学推理和跨语言泛化是其中的一些例子。
4. 影响通常均匀分布在网络的各个层次中。然而,多个层次展示出不同的泛化模式,中间层次集中于更抽象的模式,而上层和下层与标记更密切相关。
5. 尽管整体上观察到先进的泛化模式,但效果函数对单词顺序表现出意外的敏感性。特别是,只有在与提示相关的单词出现在完整部分之前时,训练序列才会产生有意义的影响。
6. 在训练集中,与角色扮演行为有关的行为示例或描述对行为的影响最大,表明模仿而不是复杂规划是行为的原因。