魔改MatFormer:一种适用于平台间灵活部署的通用嵌套变压器架构
魔改MatFormer:一种适用于不同平台灵活部署的通用嵌套变压器架构
Transformer模型在各种应用中得到应用,从强大的多加速器集群到个人移动设备。这些设置中的推断的各种需求使开发者举办训练基本模型,如PaLM 2、Llama和ViTs的不同尺寸。然而,训练所带来的更高成本会导致一组受支持模型尺寸的限制。
大型基础模型用于不同情况,例如在移动手机上快速响应或在多集群GPU上处理大规模网络应用程序的批处理。每个模型都提供一个在不同尺寸上独立训练的模型选择,以适应各种情况。为了适应各种应用,这些模型尺寸通常以近似线性的对数比例进行分组。
因此,来自Google Research、德克萨斯大学奥斯汀分校、华盛顿大学和哈佛大学的一组研究人员推出了MatFormer——一种专门为适应性而设计的Transformer架构,如他们最新的题为《MatFormer: Nested Transformer for Elastic Inference》的论文所述。MatFormer使得构建一个集成模型可以生成许多较小的子模型而无需额外训练变得更加容易。
他们在标准Transformer中加入了一个嵌套的子结构,并联合优化了所有的粒度,以产生一个单一的、通用的弹性模型。
研究人员强调,通过有意地在通用MatFormer模型的各个层中混合不同层次的信息,他们能够生产出许多准确的子模型,而无需额外的训练成本。MatFormer架构中的每个Feed Forward Network (FFN)模块都是通过一组较小的、嵌套的FFN模块进行优化的。通过这种训练方法,他们结合和调整了模型在不同层中的复杂度。
嵌套结构是在Feed Forward Network (FFN)模块的隐藏表示上实现的,通过按重要性顺序放置注意力头,增强了模型的能力。从最重要到最不重要,创建了注意力头内的子结构。与独立训练等效的基于Transformer的子模型相比,由于更重要的注意力头分散在更多的子模型中,训练加速了15%。此外,这种方法与专门优化的子模型曲线对齐,允许在保持准确性的同时提取多个较小的子模型。
研究人员发现,通过为每个MatFormer层选择不同的细节级别,他们能够生成大量准确的较小模型,而无需进一步优化。
研究团队研究了各种模型类型(解码器和编码器),模态(语言和视觉)和规模(高达26亿参数)的有效性。研究人员强调,将这些较小的模型与独立训练的对照模型进行比较,可以看到相当的验证损失和一次性下游性能。而且,MatFormer表现出强大的泛化能力,在视觉编码器(MatViT)和仅解码器的语言模型(MatLM)上表现良好。就准确性和可靠性而言,它与传统的Transformer模型类似。