南风AI:在开源领域超越Llama2设立新的标杆

南风AI:以开源领域超越Llama2,开创新的里程碑

最近,由于ChatGPT等杰出表现者的存在,大型语言模型(LLM)日趋成为焦点。当Meta引入他们的Llama模型时,重新引发了对开源LLM的兴趣。目标是创建价格实惠、开源的LLM,与GPT-4等顶级模型一样出色,但没有高昂的价格或复杂性。

这种价格实惠和高效性的结合不仅为研究人员和开发人员打开了新的道路,也为自然语言处理的技术进步开启了新的时代。

最近,生成性人工智能初创公司获得了大量资金支持。它们共同筹集了2000万美元,旨在塑造开源人工智能。Anthropic公司还筹集了令人瞩目的4.5亿美元,Cohere公司与Google Cloud合作,在今年6月获得了2.7亿美元的资金。

关于Mistral 7B的介绍:尺寸与可用性

mistral AI

Mistral AI总部位于巴黎,由来自Google DeepMind和Meta的校友共同创立,宣布推出其首个大型语言模型:Mistral 7B。任何人都可以从GitHub或13.4GB的种子文件轻松下载该模型。

这家初创公司在推出产品之前就获得了创纪录的种子资金支持。Mistral AI的7百亿参数模型在所有测试中表现超过了Llama 2的13百亿模型,并在许多指标上超越了Llama 1的34百亿模型。

与Llama 2等其他模型相比,Mistral 7B提供了相似或更好的功能,但计算开销更低。虽然像GPT-4这样的基础模型可以实现更多功能,但它们的价格更高,而且由于主要通过API访问,因此不太用户友好。

在编码任务方面,Mistral 7B凭借其出色性能挑战了CodeLlama 7B。而且,它的大小只有13.4GB,在标准机器上也可以运行。

此外,Mistral 7B Instruct针对Hugging Face上的教育数据集进行了专门调优,并展现出出色的性能。在MT-Bench上,它超越了其他7百亿模型,并且在与13百亿聊天模型并肩的位置上。

hugging-face mistral ai example

Hugging Face Mistral 7B示例

性能基准测试

在详细的性能分析中,Mistral 7B与Llama 2家族模型进行了比较。结果很明显:在所有基准测试中,Mistral 7B远远超过了Llama 2的13百亿模型。事实上,在代码和推理基准测试中,它与Llama 34B的性能相匹配。

基准测试被分为几个类别,如常识推理、世界知识、阅读理解、数学和代码等。特别值得注意的观察结果是Mistral 7B的成本性能指标,称为“等效模型大小”。在推理和理解等领域,Mistral 7B展示出与Llama 2三倍大小的模型相当的性能,这意味着在内存上可能节省了成本,并提高了吞吐量。然而,在知识基准测试中,Mistral 7B与Llama 2的13百亿模型非常接近,这可能归因于其参数限制影响了知识压缩。

究竟是什么使得Mistral 7B模型比大多数其他语言模型更好?

简化注意机制

尽管注意机制的细微之处很复杂,但其基本思想相对简单。想象一下阅读一本书并且划重点的重要句子;这类似于注意机制如何“突出显示”或赋予序列中特定数据点的重要性。

在语言模型的背景下,这些机制使模型能够专注于输入数据的最相关部分,确保输出连贯且具有上下文准确性。

在标准transformer中,注意分数通过以下公式计算:

Transformers attention Formula

transformer注意公式

这些分数的计算涉及一个关键步骤——Q和K的矩阵乘法。挑战在于,随着序列长度的增加,这两个矩阵也会相应扩展,导致计算量大的过程。这种可伸缩性问题是标准transformer慢速运行的主要原因之一,特别是处理长序列时。

transformer注意机制帮助模型专注于输入数据的特定部分。通常,这些机制使用“头部”来管理这种注意力。头部越多,注意力越专注,但同时变得更加复杂和缓慢。深入了解transformer和注意力机制的详细信息,请点击此处

多查询注意力(MQA)通过使用一组“键-值”头部来加速处理过程,但有时会牺牲质量。现在,你可能会想,为什么不将MQA的速度与多头注意力的质量结合起来呢?这就是Grouped-query attention (GQA)的用处。

Grouped-query attention (GQA)

Grouped-query attention

Grouped-query attention

GQA是一个折中的解决方案。它不仅使用一个或多个“键-值”头部,而是对它们进行分组。这样,GQA在性能上接近详细的多头注意力,同时具备MQA的速度。对于Mistral等模型来说,这意味着在不过多牺牲质量的情况下实现高效的性能。

Sliding Window Attention (SWA)

longformer transformers sliding window

滑动窗口是处理注意力序列的另一种方法。该方法在序列中的每个标记周围使用了一个固定大小的注意窗口。通过堆叠多个层的这些窗口注意力,顶层最终获得更广泛的视角,涵盖了整个输入的信息。这个机制类似于卷积神经网络(CNN)中的感受野。

另一方面,Longformer模型的“扩张滑动窗口注意力”概念上类似于滑动窗口方法,只计算QKT矩阵的几条对角线。这种改变导致内存使用线性增加而不是平方增加,使它成为处理较长序列的更高效方法。

Mistral AI的透明度与去中心化的安全担忧

在宣布中,Mistral AI还强调了透明度,他们表示:“没有花招,没有专有数据。”但与此同时,他们目前唯一可用的模型“Mistral-7B-v0.1”是一个预训练基础模型,因此可以对任何查询生成响应而不需要进行调控,这引发了潜在的安全担忧。而像GPT和Llama这样的模型有机制可以判断何时响应,Mistral的完全去中心化性质可能会被不法分子利用。

然而,大型语言模型的去中心化也有其优点。虽然有些人可能会滥用它,但人们可以利用其能力为社会谋求利益,并使智能对所有人都可获得。

部署灵活性

其中一个亮点是Mistral 7B可在Apache 2.0许可下使用。这意味着无论您是为个人目的、大型企业还是政府实体使用它,都没有实质性的障碍。您只需要正确的系统来运行它,或者您可能需要投资云资源。

虽然还有其他许可,如较简单的MIT许可和合作性的CC BY-SA-4.0许可,这些许可要求为派生作品给予信用和类似的许可,但Apache 2.0为大规模项目提供了稳固的基础。

最后的想法

Mistral 7B等开源大型语言模型的崛起标志着人工智能产业的重大转变,使高质量的语言模型更加普遍可及。Mistral AI的创新方法,如组合查询注意力和滑动窗口注意力,承诺在不损害质量的情况下提供高效的性能。

Mistral的去中心化性质带来了一定的挑战,但其灵活性和开源许可强调了实现人工智能民主化的潜力。随着格局的演变,关注点必然放在平衡这些模型的power与道德考虑和安全机制上。

Mistral接下来的计划是什么?7B模型只是个开始。团队计划很快推出更大的模型。如果这些新模型的性能与7B相匹敌,Mistral可能会在他们的第一年内迅速崛起为行业的佼佼者。