Mistral AI推出Mixtral 8x7B:一款强大的稀疏专家混合模型
魅思特人工智能强势推出Mixtral 8x7B:引领稀疏专家混合模型的力量
为了推进人工智能的发展,Mistral AI,提供先进开放模型的先驱,发布了Mixtral 8x7B。这款高质量稀疏混合专家模型(SMoE)具有开放权重,代表了该领域的重要飞跃。Mistral AI摒弃了传统的架构和训练范例,旨在赋予开发者社区原创模型,促进创新和多样化的应用。
Mixtral 8x7B概述
Mixtral 8x7B是一种仅解码器模型,利用了稀疏混合专家网络。使用8个不同的参数组,前馈块在每个层选择两个专家处理令牌,通过加法组合他们的输出。这种创新的方法将模型的参数数量提升至467亿,同时保持成本和延迟控制,在速度和成本效率上达到了129亿模型的水平。
通过稀疏架构推动前沿
Mistral AI引领了在Mixtral中使用稀疏架构的潮流,展示了对开放模型边界的推进承诺。Mixtral中的路由器网络高效地处理输入数据,根据标记选择特定的参数组。这种策略性的参数利用增强了性能,而不会影响速度或成本,使Mixtral成为人工智能领域中令人畏惧的竞争者。
性能指标
Mixtral与Llama 2模型和GPT3.5基准模型进行了比较。结果展示了Mixtral的强大能力,在各项基准测试中优于Llama 2 70B,并达到或超过了GPT3.5的水平。质量与推理预算的折衷图表展示了Mixtral 8x7B的效率,使其成为与Llama 2对应模型相比非常高效的模型之一。
幻觉、偏见和语言掌握
对Mixtral的性能进行的批判性分析揭示了其在TruthfulQA、BBQ和BOLD基准测试中的强项。与Llama 2相比,Mixtral表现出更高的真实性和较少的偏见。该模型展示了在多种语言(包括法语、德语、西班牙语、意大利语和英语)中的熟练程度。
还可以阅读:从GPT到Mistral-7B:人工智能对话的令人激动的飞跃
我们的观点
Mistral AI的Mixtral 8x7B不仅为开放模型设立了新的标准,还解决了伦理考虑。通过积极识别和衡量幻觉、偏见和情感,Mistral AI展示了通过微调和偏好建模来完善模型的承诺。Mixtral 8x7B Instruct的发布进一步强调了Mistral AI提供多功能、高性能和符合伦理的开源模型的决心。