麻省理工学院、哈佛大学和东北大学的“在一堆干草中寻找神经元”倡议采用了稀疏探测的方法

The Finding Neurons in a Haystack initiative by MIT, Harvard, and Northeastern University adopts a sparse detection method.

通常人们认为神经网络是可调整的“特征提取器”,它通过逐步从初始原始输入中细化适当的表示来学习。因此,问题就出现了:正在表示什么特征,以及以何种方式?为了更好地理解低层次、人类可解释的特征在LLM的神经激活中是如何描述的,来自麻省理工学院(MIT)、哈佛大学(HU)和东北大学(NEU)的研究团队提出了一种技术,称为稀疏探测。

通常情况下,研究人员会在模型的内部激活上训练一个基本分类器(探针)来预测输入的某个属性,然后检查网络,看它是否以及在哪里表示了所讨论的特征。建议的稀疏探测方法通过探测100多个变量来确定相关的神经元。这种方法克服了以往探测方法的局限性,并揭示了LLM的复杂结构。它将探测分类器限制在使用不超过k个神经元进行预测的情况下,其中k的取值范围在1到256之间。

该团队使用最先进的稀疏预测技术来证明k-稀疏特征选择子问题的小k最优性,并解决了排序和分类准确性之间的混淆问题。他们使用稀疏性作为归纳偏置,以确保他们的探针能够保持强大的简约性先验,并确定关键神经元进行细致的检查。此外,该技术可以生成更可靠的信号,以判断特定特征是否明确表示并在下游中使用,因为容量不足会阻止他们的探针记住与感兴趣特征相关的相关模式。

研究小组在实验中使用了自回归变换器LLM,并在训练具有不同k值的探针后报告了分类结果。他们从研究中得出以下结论:

  • LLM的神经元包含丰富的可解释结构,稀疏探测是一种有效的定位方法(即使在叠加的情况下)。但是,如果要得出严格的结论,必须谨慎使用,并进行后续分析。
  • 当第一层的许多神经元被激活以表示无关的n-gram和局部模式时,特征被编码为多义神经元的稀疏线性组合。权重统计和玩具模型的见解也使我们得出结论,完全连接层的前25%广泛使用叠加。
  • 尽管在方法上无法得出关于单义性的明确结论,但单义神经元,尤其是在中间层,编码更高级的上下文和语言属性(例如is_python_code)。
  • 虽然表示稀疏性往往随着模型变得更大而提高,但这种趋势并不普遍存在;随着模型变得更大,一些特征会出现专用的神经元,而其他特征会分裂成更精细的特征,而许多其他特征要么不变要么以相当随机的方式出现。

稀疏探测的一些好处

  • 通过具有最优性保证的探针,进一步解决了在调查个别神经元时混淆分类质量与排名质量的潜在风险。
  • 此外,稀疏探针旨在具有较低的存储容量,因此对于探针能够独立学习任务的能力没有太多担忧。
  • 要进行探测,您需要一个监督数据集。但一旦建立了一个数据集,您可以用它来解释任何模型,这打开了研究学习电路的普适性和自然抽象假设等问题的大门。
  • 它可以自动检查不同架构选择如何影响多义和叠加特征的出现,而不依赖于主观评估。

稀疏探测有其局限性

  • 只有在对探测实验数据进行附加的二次调查时,才能进行强有力的推论。
  • 由于对探测数据集的实现细节、异常、错误规范和误导性相关性的敏感性,探测只能提供有限的因果关系洞察。
  • 特别是在可解释性方面,稀疏探针无法识别跨多个层构建的特征,也无法区分叠加特征和表示为多个不同的更精细特征的并集的特征。
  • 如果稀疏探测在探测数据集中由于冗余而遗漏了一些重要的神经元,可能需要进行迭代修剪。使用多令牌特性需要专门的处理,通常使用聚合来实现,这可能会进一步稀释结果的特异性。

使用一种革命性的稀疏探测技术,我们的工作揭示了LLMs中丰富的、人类可理解的结构。科学家计划建立一个广泛的探测数据集库,可能在人工智能的帮助下,记录与偏见、公正、安全和高风险决策特别相关的细节。他们鼓励其他研究人员加入到这种“雄心勃勃的可解释性”探索中,并认为,与典型的机器学习实验循环相比,一种类似自然科学的经验方法可能更加有效。拥有广泛而多样的监督数据集将有助于改进下一代无监督可解释性技术的评估,这些技术将需要跟上人工智能的进步,同时也可以自动化评估新模型。