Adept AI Labs 开源了 Persimmon-8B:一款功能强大的完全许可证开放的语言模型

Adept AI Labs 开源了 Persimmon-8B 语言模型

近年来,人工智能领域取得了显著进展,特别是在语言模型的发展方面。在Marktechpost Media上,我们已经报道了许多基于不同参数和SOTA性能的语言模型。顺应这一趋势,我们又有了一个新的发布,这次是Adept AI Labs发布的Persimmon-8B。Persimmon-8B是一个开源的、完全受许可的8B级别模型。这个模型在各种与计算机相关的任务中具有巨大的潜力,旨在帮助用户。然而,需要注意的是,该模型在原始形式下可能会产生未经加工的潜在有害输出。这引发了对更精细的评估技术的关键关注。

尽管较小的语言模型已经展示了令人印象深刻的能力,但Persimmon-8B作为一个重大的飞跃而脱颖而出。它的上下文大小是LLaMA2的四倍,是GPT-3等模型的八倍,使其能够更加精细地处理与上下文相关的任务。此外,尽管在训练数据明显减少的情况下进行训练,但它的性能与其大小范围内的其他模型相当,甚至超过其他模型。这展示了该模型训练过程的高效性和有效性。

为了评估Persimmon-8B的能力,Adept团队采用了一种独特的方法。他们选择更直接的交互方式,而不仅仅依靠隐含的概率,让模型生成答案。这种方法模仿了与语言模型的真实世界交互,用户提出问题并期待回答的方式。通过发布他们的提示,Adept邀请社区重新复现和验证他们的发现。

结果充分证明了Persimmon-8B的能力。与LLama 2和MPT 7B Instruct等大小范围内的其他模型相比,Persimmon-8B-FT在各种指标上都表现出最强的性能。即使是基础模型Persimmon-8B-Base,尽管训练数据只是LLama 2的一小部分,也表现出与LLama 2相当的性能。这凸显了该模型在处理各种任务方面的高效性和有效性。

就技术细节而言,Persimmon-8B是一个仅有解码器的Transformer,具有几个架构增强。它采用了平方ReLU激活和旋转位置编码,优于传统的替代方法。该模型的检查点包含大约93亿个参数,经过优化以进行高效训练。值得注意的是,输入和输出嵌入的解耦作为一个系统级的增强,简化了训练过程。

在推理速度方面,Persimmon-8B表现出令人印象深刻的性能。使用优化代码,它能够在单个80GB A100 GPU上每秒生成大约56个标记。这使它成为实时应用的高效工具。

总而言之,Persimmon-8B的发布标志着语言模型领域的一个重要里程碑。它的能力,加上Adept采用的创新评估方法,为交互式AI应用开启了新时代。通过开源这个模型,Adept邀请社区在其基础上进行进一步创新,推动该领域的发展。随着该模型的采用不断增长,它有望在各个领域找到应用,改变人们与计算机系统互动的方式。