Line 开源了“japanese-large-lm”:一个具有36亿参数的日语语言模型

Line 开源了“japanese-large-lm”:一个具有36亿参数的日语语言模型 Line has released the open-source japanese-large-lm, a Japanese language model with 3.6 billion parameters.

自2020年11月起,LINE开始了一项变革性的研发之旅,旨在创建和利用一个专门针对日语的先进大规模语言模型的力量。作为这一旅程的重要里程碑,LINE的大规模语言模型开发单位宣布将他们的日语语言模型“Japanese-large-lm”作为开源软件(OSS)发布。这一发布将显著影响研究界和寻求利用尖端语言模型的企业。

这些语言模型有两个变体,分别是36亿(3.6B)参数模型和17亿(1.7B)参数模型,分别被称为3.6B模型和1.7B模型。通过揭示这些模型并分享他们对语言模型构建的全面见解,LINE旨在让人们一窥他们的方法的复杂性,并为该领域的进步做出贡献。

1.7B和3.6B模型可以通过HuggingFace Hub(1.7B模型,3.6B模型)访问,通过流行的transformers库无缝集成到各种项目中。将这些模型授权为Apache License 2.0确保了广泛的用户群体,包括研究人员和商业实体,可以利用它们的能力进行各种应用。

开发任何高性能语言模型的基石在于利用广泛而高质量的训练数据集。LINE利用其专有的日语网络语料库,这是一个富含多样化文本数据的存储库来实现这一目标。然而,网络衍生内容所带来的挑战在于其中的噪音,包括源代码和非日语句子。LINE的解决方案是使用由HojiChar OSS库提供支持的细致过滤过程。这些过程对于提炼一个大规模、高质量的数据集,构建模型的稳健性至关重要。

模型训练的效率是一个关键考虑因素,LINE通过实现3D并行和激活检查点等创新技术应对了这一挑战。这些进展有助于高效地吸收大量数据,有效地推动了计算能力的边界。令人惊讶的是,1.7B模型仅使用了4000个GPU小时在A100 80GB GPU上开发而成,这证明了他们学习方法的功效。

值得注意的是,这个日语语言模型的开发轨迹与HyperCLOVA的开发轨迹不同。这个模型是LINE专门的大规模语言模型开发单位精心监督下构建的,证明了LINE致力于为日语语言打造出色的预训练模型的承诺。他们的总体目标始终如一,即整合他们在大规模语言模型方面的丰富经验和教训。

LINE深入研究了困惑度分数(PPL)和问答和阅读理解任务的准确率来评估模型的效果。PPL提供了对模型预测能力的了解,而准确率提供了切实的性能指标。结果令人鼓舞,LINE的模型在各种任务中展示出有竞争力的性能,与该领域的已建立模型相媲美。

他们成功的基础是一系列对于有效的大规模语言模型训练的宝贵技巧。这些技巧包括对于微调的考虑、超参数Adam的beta2、最佳学习率以及应用明智的学习率调度器。通过深入研究这些技术细节,LINE开发了强大的模型并分享了受惠于更广泛社区的见解。

总之,LINE发布的1.7B和3.6B日语语言模型标志着自然语言处理领域的重要进展。他们未来发布调优模型的承诺凸显了他们提升语言模型能力的决心。随着LINE不断取得进展,全球社区迫切期待他们持续贡献的持久影响。