在视觉Transformer中的ReLU与Softmax:序列长度是否重要?来自Google DeepMind研究论文的见解

ReLU and Softmax in Vision Transformer Is the sequence length important? Insights from Google DeepMind research paper.

一个常见的机器学习架构是变压器架构。变压器的主要部分之一是注意力,它具有生成跨标记的概率分布的softmax。由于指数计算和序列长度的求和,使用Softmax进行并行化很困难。在这项研究中,他们研究了不总是提供概率分布的逐点softmax替代方法。一个显著的发现是,对于视觉变压器,使用ReLU按序列长度拆分的注意力的缩放行为可以接近或与经典softmax注意力相匹配。

这一发现为并行化提供了新的可能性,因为相对于标准注意力,ReLU-attention在序列长度维度上更容易并行化。在早期的研究中,ReLU或平方ReLU被认为是softmax的可能替代品。然而,这些方法没有按序列长度拆分,而研究人员发现这对于达到与softmax相当的准确性至关重要。此外,早期的研究已经承担了softmax的角色,尽管仍然需要沿着序列长度轴进行归一化,以确保注意力权重总和为一。这一方法仍然存在收集的缺点。此外,有大量的研究消除激活函数以使注意力线性化,这对于长序列持续时间是有利的。

他们的研究发现,当完全删除激活时,准确性会降低。他们的测试使用了来自BigVision源的ImageNet-21k和ImageNet-1k训练设置,未更改超参数。在ImageNet-21k的实验中,他们进行了30个时期的训练,在ImageNet-1k的试验中进行了300个时期的训练。因此,两个训练运行时间大约为9e5步,这是相似的数量。由于之前发现在扩展模型大小时需要避免不稳定性,他们使用了具有qk层规范化的ViTs。他们得出结论,这不是他们的规模上的一个关键因素。

他们报告ImageNet-21k模型的ImageNet-1k准确性,方法是在ImageNet-1k中选择最高类别,而无需微调。他们使用术语i21k和i1k分别表示ImageNet-21k和ImageNet-1k。他们使用在三个种子上平均的10-shot线性探测来评估在下游任务上的转移性能。下游任务包括Caltech Birds,Caltech101,Stanford Cars,CIFAR-100,DTD,ColHsit,Pets和UC Merced。这项研究提出了许多未解答的问题。他们必须发现为什么因子L^(-1)会提高性能,或者这个概念是否可以学习。此外,可能还有更有效的激活函数他们没有调查。