南风AI最新的专家混合(MoE) 8x7B模型
南风AI最新的专家混合(MoE) 8x7B模型:美妆时尚领域的革命性突破
Mistral AI是一家总部位于巴黎的开源模型初创公司,通过一个简单的种子链接发布了其最新的大型语言模型(LLM)MoE 8x7B,挑战了常规。与谷歌的传统方法——Gemini发布相比,引发了人工智能界的讨论和兴奋。
Mistral AI一直以来的发布方式都是非常非传统的。他们经常放弃常规的论文、博客或者新闻发布等附带物,而他们的策略在吸引人工智能界的注意力方面非常独特而有效。
最近,该公司通过Andreesen Horowitz领投完成了一轮2亿美元的融资,达到了引人注目的估值。这轮融资创下了1180万美元的种子融资,是欧洲历史上最大的。除了融资成功之外,Mistral AI还积极参与了欧盟人工智能法案的讨论,并积极呼吁减少开源人工智能的监管。
MoE 8x7B为何引起关注
Mixtral 8x7B被描述为“缩小版GPT-4”,它采用了一个由八个专家组成的专家混合(MoE)框架。每个专家拥有1110亿个参数,再加上550亿个共享注意参数,总共每个模型有1660亿个参数。这种设计选择非常重要,因为它只允许两个专家参与每个令牌的推理,突出了向更高效、更专注的人工智能处理方式的转变。
Mixtral的一个重要特点之一是它能够管理32000个标记的广泛上下文,为处理复杂任务提供了充足的空间。该模型的多语言能力包括对英语、法语、意大利语、德语和西班牙语的强大支持,迎合全球开发者社区的需求。
Mixtral的预训练使用从网络上获取的数据,同时对专家和路由进行并行训练。这种方法确保模型不仅在参数空间上巨大,而且在所接触到的大量数据的细微差别上也经过精细调整。
Mixtral 8x7B取得了令人印象深刻的得分
Mixtral 8x7B在性能上超过了LLaMA 2 70B并与GPT-3.5相提并论,尤其在MBPP任务中的成功率达到了60.7%,显著高于其他同类产品。即使在针对指令跟随模型的严格MT-Bench测试中,Mixtral 8x7B也取得了令人印象深刻的得分,几乎与GPT-3.5相媲美。
理解专家混合(MoE)框架
专家混合(MoE)模型近来受到人们关注,因为它被应用于Mistral AI的MoE 8x7B等最先进的语言模型中,实际上它源于数年前的基础概念。让我们通过一些研究论文来重新思考这个想法的起源。
MoE的概念
专家混合(MoE)代表着神经网络架构的一次范式转变。与使用单一的、均质的网络来处理各种类型数据的传统模型不同,MoE采用了一种更专门和模块化的方法。它由多个“专家”网络组成,每个专家都被设计用来处理特定类型的数据或任务,由一个“门控网络”动态地将输入数据引导到最合适的专家。
专家混合(MoE)层嵌入在循环语言模型中(来源)
上图展示了嵌入在语言模型中的高层视图。在本质上,MoE层由多个前馈子网络组成,被称为“专家”,每个专家可以专注于处理数据的不同方面。图中突出显示的门控网络确定了在给定输入下哪些专家的组合被激活。这种条件激活使得网络能够大幅增加容量,而不会对计算需求产生相应的激增。
MoE层的功能
在实践中,门控网络评估输入(在图中表示为G(x)
)并选择一组稀疏的专家来处理它。这种选择由门控网络的输出调节,有效地确定了每个专家对最终输出的“投票”或贡献。例如,如图所示,每个特定输入令牌的输出计算只选择了两个专家,通过将计算资源集中在最需要的地方,使过程更加高效。
具有MoE层的Transformer编码器(来源)
上图比较了传统的Transformer编码器和增强了MoE层的编码器。Transformer架构因其在与语言相关的任务中的效果而被广泛认可,传统上由自注意和前馈层按顺序堆叠而成。MoE层的引入取代了其中的一些前馈层,使得模型能够更有效地根据容量进行扩展。
在增强模型中,MoE层被切分在多个设备上,展示了模型并行的方法。这在大规模模型的扩展中至关重要,它可以将计算负载和内存需求分布在一组设备(如GPU或TPU)的集群中。这种切分对于在大规模计算集群上训练和部署具有数十亿到数万亿个参数的模型的效率至关重要。
在LLM上进行指令调整的稀疏MoE方法
论文“为可扩展语言建模引入稀疏专家混合(MoE)”讨论了一种创新的方法,通过将专家混合架构与指令调整技术结合,改进了大型语言模型(LLM)。
它强调了一个常见的挑战,即当MoE模型在针对特定任务进行微调时,与相同计算能力的密集模型相比表现不佳,原因是普通预训练和任务特定微调之间存在差异。
指令调整是一种训练方法,通过对模型进行调整,使其更好地遵循自然语言指令,从而有效地提高其任务性能。该论文表明,相比密集模型,MoE模型与指令调整结合后的改进更为显著。这种技术将模型的预训练表示与指令更有效地对齐,从而显著提高性能。
研究人员在三个实验设置中进行了研究,发现MoE模型在直接任务特定微调中最初表现不佳。然而,当应用指令调整时,MoE模型表现出色,尤其是当进一步辅以任务特定微调时。这表明指令调整是MoE模型在下游任务上超越密集模型的重要步骤。
指令调整对MOE的影响
论文还介绍了FLAN-MOE32B,它展示了这些概念成功应用的模型。值得注意的是,它在基准任务上优于密集模型FLAN-PALM62B,同时只使用了三分之一的计算资源。这展示了稀疏MoE模型与指令调整相结合在LLM的效率和性能方面具有潜力。
在现实场景中实施专家混合
MoE模型的多功能性使其非常适用于各种应用:
- 自然语言处理(NLP):MoE模型可以更有效地处理人类语言的细微差别和复杂性,使其非常适用于高级NLP任务。
- 图像和视频处理:在需要高分辨率处理的任务中,MoE可以处理图像或视频帧的不同方面,提高质量和处理速度。
- 可定制的AI解决方案:企业和研究人员可以根据特定任务定制MoE模型,实现更有针对性和有效性的AI解决方案。
挑战与考虑
虽然MoE模型提供了许多好处,但也面临着独特的挑战:
- 训练和调整的复杂性:MoE模型的分布式特性可能会使训练过程变得复杂,需要对专家和门控网络进行仔细的平衡和调整。
- 资源管理:有效地管理多个专家之间的计算资源对于最大化MoE模型的好处至关重要。
将MoE层嵌入神经网络,尤其是在语言模型领域,为扩大模型规模提供了一条路径,这在以前由于计算约束是不可行的。MoE层所支持的条件计算可以实现更高效的计算资源分配,使得训练更大、功能更强大的模型成为可能。随着我们对AI系统的要求日益增加,像搭载MoE的Transformer这样的架构很可能成为处理各个领域中复杂大规模任务的标准。