变压器和支持向量机之间的联系是什么?揭示变压器架构中的隐含偏差和优化几何

变压器和支持向量机之间的联系是什么?揭示变压器架构中的隐含偏差和优化几何 The connection between transformers and support vector machines? Revealing the implicit bias and optimizing geometry in transformer architecture.

自注意力使得自然语言处理(NLP)得到了革命性的改变,它是变压器设计的关键要素,使得模型能够识别输入序列中的复杂关联。自注意力通过评估相关令牌对彼此的相关性,给予输入序列的不同部分不同的优先级。这种技术已经被证明在捕捉长距离关系方面非常有效,这对于强化学习、计算机视觉和NLP应用非常重要。自注意力机制和变压器已经取得了显著的成功,为创建复杂的语言模型如GPT4、Bard、LLaMA和ChatGPT铺平了道路。

它们能否描述变压器的隐式偏见和优化空间?当训练时,注意层如何选择和组合令牌?宾夕法尼亚大学、加利福尼亚大学、不列颠哥伦比亚大学和密歇根大学的研究人员通过将注意层的优化几何与(Att-SVM)硬最大间隔支持向量机问题紧密联系在一起,回答了这些问题,该问题可以从输入序列中分离选择最佳令牌。实验表明,这种基于以前工作的形式主义在实践中具有重要意义,并揭示了自注意力的细微差别。

定理1

他们在整个研究中使用输入序列X,Z ∈ RT×d来研究基本的交叉注意力和自注意力模型,其中T是序列的长度,d是嵌入维度。这里,可训练的键、查询和值矩阵分别是K、Q ∈ Rd×m和V ∈ Rd×v。S( . )代表softmax非线性,它按行应用于XQK⊤X⊤。通过设置Z ← X,可以看出自注意力(1b)是交叉注意力(1a)的一个特例。考虑使用Z的初始令牌,由z表示,用于预测以揭示他们的主要发现。

具体来说,他们通过降低的损失函数l()来解决经验风险最小化问题:R R,表示如下:给定带有标签Yi ∈ {−1, 1}和输入Xi ∈ RT×d、zi ∈ Rd的训练数据集(Yi, Xi, zi)ni=1,他们评估以下内容:在这种情况下,预测头部,用符号h( . )表示,包括值权重V。在这个公式中,一个MLP跟在模型f( . )中的注意层后面,准确地描述了一个一层的变压器。通过设置zi ← xi1,可以在(2)中恢复自注意力,其中xi1表示序列Xi的第一个令牌。由于它的非线性特性,softmax操作对于优化(2)来说是一个相当大的障碍。

定理2

即使在预测头固定且线性的情况下,这个问题也是非凸的和非线性的。这项工作通过优化注意力权重(K、Q或W)来克服这些困难,并建立了基本的SVM等价。 

以下是本文的主要贡献:

• 注意层中的隐式偏见。通过核范数目标的组合参数W:= KQ (定理2),在逐渐减小的正则化条件下优化注意力参数(K、Q)收敛于(Att-SVM)的最大间隔解。当交叉注意力由组合参数W显式参数化时,正则化路径(RP)方向上的收敛方向与Frobenius范数目标收敛于(Att-SVM)解。据他们所知,这是第一项正式比较(K、Q)参数化和(W)参数化的优化动力学的研究,突出了后者的低秩偏见。附录中的定理11和SAtt-SVM描述了他们的理论如何轻松扩展到序列到序列或因果分类上下文,并清楚地定义了所选令牌的最优性。

• 梯度下降的收敛性。在适当的初始化和线性头部h()的情况下,联合关键查询变量W的梯度下降迭代会在局部最优方向上收敛于Att-SVM解。所选的标记必须比周围的标记表现更好,以实现局部最优性。局部最优规则在以下问题几何中被定义,尽管它们并不总是唯一的。它们通过确定确保收敛到全局最优方向的几何参数来做出重要贡献。这些参数包括(i)基于它们的分数区分理想标记的能力,或者(ii)初始梯度方向与最优标记的对齐。除此之外,它们还展示了超参数化(即,维度d很大和等价条件)如何通过保证(Att-SVM)可行性和(良性)优化空间来促进全局收敛,这意味着没有稳定点和虚假的局部最优方向。

• SVM等价性的普遍性。注意力层,在使用线性h()进行优化时通常被称为硬注意力,本质上偏向于从每个序列中选择一个标记。由于输出标记是输入标记的凸组合,这在(Att-SVM)中得到了体现。

然而,他们通过展示非线性头部需要创建多个标记,强调了这些组件对变压器动态的重要性。他们通过总结他们的理论,提出了更广泛的SVM等价性。令人惊讶的是,他们展示了他们的假设正确预测了梯度下降训练的注意力在广泛条件下的隐式偏差,而这些条件在方法(例如,h()是MLP)中没有涉及。他们的普遍方程将注意力权重明确分解为两个组成部分:一个有限的组成部分通过修改softmax概率来确定所选单词的精确组合,一个由SVM控制的方向性组成部分通过应用0-1掩码来选择标记。

这些结果可以在数学上验证,并且可以应用于任何数据集(只要SVM是可行的),这是它们的一个关键方面。通过深入的实验,他们全面确认了变压器的最大间隔等价性和隐式偏差。他们认为这些结果对于我们理解变压器作为分层最大间隔标记选择过程的知识具有重要贡献,并且他们预计他们的发现将为未来关于变压器的优化和泛化动力学的研究提供坚实的基础。