“大型语言模型真的需要那么多层吗?这项人工智能研究揭示了模型的效率:大型语言模型中必不可少的组件的探索”
研究揭示了大型语言模型中必不可少的组件的效率
大型语言模型(LLMs)的出现引起了公众的极大兴趣,特别是随着ChatGPT的出现。这些模型在大量数据的基础上进行训练,即使只有很少的示例,也能够进行上下文学习。今年,在计算语言学协会(ACL)会议上发表的一篇论文深入探讨了模型规模对于上下文学习的重要性,并对LLM架构的可解释性进行了研究。
该研究重点关注OPT-66B模型,这是由Meta开发的一种660亿参数的开放GPT-3复制品。通过分析OPT-66B,研究人员试图确定LLM的所有组成部分是否对上下文学习至关重要,以提供改进训练的潜在领域的见解。
LLMs使用Transformer架构构建,该架构依赖于注意力机制。这个机制使模型能够预测在生成当前标记时应该关注哪些先前标记的序列。这些LLMs利用多头注意力,同时使用多个注意力机制。OPT-66B由64个层组成,每个层包含72个注意力头。多头注意力的输出然后通过每个层的单独前馈网络(FFN)。
- GPT4Readability — 再也不用写 README 了
- 一项新的AI研究介绍了REV:AI研究中的一项重大突破——一种新的信息论度量方法,用于评估自由文本理由中的新颖且与标签相关的信息
- CMU、AI2和华盛顿大学的研究小组推出了NLPositionality:一种用于表征设计偏见和量化NLP数据集和模型定位性的AI框架
为了调查OPT-66B模型,研究人员采用了两种方法。首先,他们为每个注意力头和FFN分配分数,以确定它们在给定任务中的重要性。使用这些分数,他们修剪了模型,丢弃了某些组件。令人惊讶的是,他们发现可以删除模型的很大一部分而不影响性能。这表明OPT-66B,以及其他知名LLMs,被认为是未经训练的。
研究人员发现,重要的注意力头主要位于模型的中间层,而重要的FFNs主要位于后面的层。令人惊讶的是,即使删除了高达70%(约157亿个参数)的注意力头,对14个不同的自然语言处理(NLP)数据集/任务进行零或少量示例的上下文学习的能力基本上没有受影响。此外,他们确定了一组共同的注意力头,负责跨任务和示例进行上下文学习,表明具有任务无关功能。此外,他们观察到,删除约20%的FFNs(约85亿个参数)对零或少量示例的上下文学习影响很小。
对于他们的第二种分析技术,研究人员评估了OPT-66B中所有注意力头在执行与上下文学习相关的任务无关原始操作的能力。这些操作包括前缀匹配和复制,涉及搜索当前标记的先前出现并复制后续标记。他们发现,一小部分注意力头对两个原始操作都具有非平凡的分数。有趣的是,这些头部也与被认为对特定任务重要的注意力头重叠,表明它们参与了更复杂的上下文学习行为,如潜在概念匹配。
研究得出结论,只有一小组关键的注意力头和FFNs对于上下文学习至关重要,这意味着OPT-66B,以及其他领先的LLMs,被认为是未经训练的。这一观察结果与最近的研究相一致,质疑在模型扩展时固定数量的预训练数据的有效性。研究结果表明,为了实现最佳性能,模型和预训练数据的数量必须同时扩展。未来的研究可以探索新的LLM变体,包括那些根据指令进行定制的变体,在类似的分析中的表现如何。