在视觉Transformer中的ReLU与Softmax：序列长度是否重要？来自Google DeepMind研究论文的见解

ReLU and Softmax in Vision Transformer Is the sequence length important? Insights from Google DeepMind research paper.

一个常见的机器学习架构是变压器架构。变压器的主要部分之一是注意力，它具有生成跨标记的概率分布的softmax。由于指数计算和序列长度的求和，使用Softmax进行并行化很困难。在这项研究中，他们研究了不总是提供概率分布的逐点softmax替代方法。一个显著的发现是，对于视觉变压器，使用ReLU按序列长度拆分的注意力的缩放行为可以接近或与经典softmax注意力相匹配。

这一发现为并行化提供了新的可能性，因为相对于标准注意力，ReLU-attention在序列长度维度上更容易并行化。在早期的研究中，ReLU或平方ReLU被认为是softmax的可能替代品。然而，这些方法没有按序列长度拆分，而研究人员发现这对于达到与softmax相当的准确性至关重要。此外，早期的研究已经承担了softmax的角色，尽管仍然需要沿着序列长度轴进行归一化，以确保注意力权重总和为一。这一方法仍然存在收集的缺点。此外，有大量的研究消除激活函数以使注意力线性化，这对于长序列持续时间是有利的。

他们的研究发现，当完全删除激活时，准确性会降低。他们的测试使用了来自BigVision源的ImageNet-21k和ImageNet-1k训练设置，未更改超参数。在ImageNet-21k的实验中，他们进行了30个时期的训练，在ImageNet-1k的试验中进行了300个时期的训练。因此，两个训练运行时间大约为9e5步，这是相似的数量。由于之前发现在扩展模型大小时需要避免不稳定性，他们使用了具有qk层规范化的ViTs。他们得出结论，这不是他们的规模上的一个关键因素。

他们报告ImageNet-21k模型的ImageNet-1k准确性，方法是在ImageNet-1k中选择最高类别，而无需微调。他们使用术语i21k和i1k分别表示ImageNet-21k和ImageNet-1k。他们使用在三个种子上平均的10-shot线性探测来评估在下游任务上的转移性能。下游任务包括Caltech Birds，Caltech101，Stanford Cars，CIFAR-100，DTD，ColHsit，Pets和UC Merced。这项研究提出了许多未解答的问题。他们必须发现为什么因子L^(-1)会提高性能，或者这个概念是否可以学习。此外，可能还有更有效的激活函数他们没有调查。

AI Shorts,Applications,Artificial intelligence,Computer vision,Editors Pick,language model,Machine learning,Staff,Tech News,Technology,Uncategorized

“PROs的推断”

从黑客到和谐：在推荐中建立产品规则

使用深度学习生成奇幻角色名字：从零开始构建...

在亚马逊网络服务上构建生成式人工智能应用——...

GPT-4的前5个免费替代方案

大型语言模型：RoBERTa – 一种鲁棒优化...

如何在2023年成为供应链分析师？

Matplotlib教程：让我们的国家地图更上一层楼

人工智能

人工智能

探索人工智能的世界及AI的未来潜力

Web Analytics