追求LLM的可解释性:为什么我的模型会产生这个输出?

追求LLM的可解释性:为何模型产生该结果的解释?

在过去几个月中,发布了更大、更好的大型语言模型,展示了新的能力,这与对AI安全性的整体担忧相配对。LMM可解释性研究试图扩展我们对这些模型工作方式的理解。

大型语言模型(LLMs)在过去一年中经历了很多的发展,例如最近发布的GPT-4和Claude 2。这些模型在之前版本的基础上展示了新的能力,但大多数都是通过事后分析发现的,并不是计划训练的一部分。它们是模型按参数数量、训练数据和计算资源的扩展的结果。

在概念层面上,我喜欢将LLMs和压缩算法进行类比。互联网的几TB数据被输入进去,经过大量的计算后,我们得到了一个只有几百GB大小的包含LLM参数的文件。这个模型无法精确地检索到初始知识,但大多数情况下仍能产生相关的输出。

作者和DALL-E 3的图像(受Karpathy的llmintro启发)

LLMs的奥秘并不在于技术架构或计算复杂性。如果一个模型的架构完全记录下来,我们可以很容易地跟踪正在执行的数学操作。但我们仍然无法完全解释一组精确的参数是如何协作产生有意义的输出的。初始训练数据的知识实际上是如何检索出来的?它们实际上在网络中的哪里和如何存储?

LLM可解释性是一个活跃的研究领域,去年已经发表了许多有趣的结果。我不打算在接下来要展示的内容中面面俱到。我的目的是引起人们对一些当前研究方向和一些有希望的结果的关注。

为了简化事情,我将区分4个主要方向:

  1. 基于输入解释产生的输出(特征归因)
  2. 基于训练数据解释产生的输出
  3. 解释个体的角色…