Mixtral-8x7B:理解和运行稀疏的专家混合模型
Mixtral-8x7B:探索和运用稀疏的专家混合模型
如何高效地超越GPT-3.5和Llama 2 70B

大部分最近的大型语言模型 (LLMs) 使用非常相似的神经架构。例如,Falcon、Mistral和Llama 2 模型都使用了类似的自注意力 (self-attention) 和多层感知机 (MLP) 模块的组合。
与之相反,Mistral AI也创建了Mistral 7B的新型LLM,它采用了一种架构有显著不同的结构:Mixtral-8x7B,由8个专家模型的稀疏混合而成。
Mixtral总共包含了46.7B个参数。然而,由于其架构的设计,Mixtral-8x7B可以在消费者硬件上高效运行。使用Mixtral-8x7B进行推理的速度比其他相似规模的模型快得多,同时在大多数任务上表现更好。
在本文中,我将解释稀疏混合专家模型是什么,以及为什么在推理时比标准模型更快。然后,我们将看到如何在消费者硬件上使用和微调Mixtral-8x7B。
我已经实现了一个笔记本,演示了使用Mixtral-8x7B进行QLoRA微调和推理的方法:
稀疏混合专家模型

稀疏混合专家模型 (SMoE) 是一种旨在提高传统模型效率和可扩展性的神经网络架构。混合专家模型的概念是为了让模型能够使用专门的“专家”子网络来学习输入空间的不同部分。Mixtral中有8个专家子网络。
请注意,模型名称中的“8x7B”略有误导性。该模型的总共有46.7B个参数,比8x7B参数多出近100亿个。实际上,Mixtral-8x7B并不是一个56B参数的模型,因为其中一些模块(例如自注意力模块等)是与8个专家子网络共享的。
如果您使用Transformers来加载和打印该模型,模型的结构将更容易理解:
MixtralForCausalLM(…