《百川2:一系列包含70亿和130亿参数的大规模多语言语言模型,从头开始训练,使用了26万亿个令牌》

《百川2:大规模多语言语言模型,包含70亿和130亿参数,26万亿个令牌训练》

大型语言模型在近年来取得了显著而令人鼓舞的发展。语言模型现在具有数十亿甚至数万亿个参数,例如GPT3、PaLM和Switch Transformers,相比之前的ELMo和GPT-1等模型的数百万个参数有了显著提升。随着人类般流利度的增加和进行各种自然语言活动的能力,这些语言模型的能力也得到了显著改善。这些模型能够产生听起来像人类语音的文本,在OpenAI发布ChatGPT后引起了广泛的公众关注。ChatGPT在各种情境下都具有很强的语言能力,可以进行日常对话和阐释复杂的思想。

这一创新展示了巨大语言模型可以用于自动化需要创造和理解自然语言的过程。尽管LLM领域已经出现了创新的发展和应用,但大多数顶级LLM(如GPT-4、PaLM-2和Claude)仍然是闭源的。由于开发人员和研究人员只能部分访问模型参数,社区很难对这些系统进行彻底的分析或优化。更多关于LLM的开放性和透明度可以加速这个快速发展领域的研究和负责任的进展。Meta创建的一个拥有650亿个参数的大型语言模型集合LLaMA通过完全开源的方式极大地帮助了LLM研究社区。

LLaMA与其他开源LLM(如OPT、Bloom、MPT和Falcon)一起,让学术界可以自由地访问这些模型进行分析、测试和未来的开发。这种可访问性和开放性使LLaMA与其他私有LLM有所区别。开源LLM的研究和开发速度加快,使得像Alpaca、Vicuna和其他新型模型成为可能。然而,大多数开源大型语言模型的主要关注点仍然是英语。例如,Common Crawl1是LLaMA的主要数据来源,其中包含67%的预训练数据,但只允许包含英文材料。其他在不同语言方面能力有限的免费开源LLM,包括MPT和Falcon,大多数也是以英语为重点。

这使得LLM在某些语言(如中文)的开发和使用变得困难。百川公司的研究人员在这项技术研究中介绍了百川2,一个包含广泛的多语言语言模型群体。百川2包括两个不同的模型:百川2-13B和百川2-7B,每个模型都有130亿个参数。这两个模型使用了超过26万亿个标记进行测试,是百川1的两倍多,也是他们所知道的最大样本量。百川2在大量训练数据的基础上明显优于百川1。百川2-7B在包括MMLU、CMMLU和C-Eval在内的常见基准测试中比百川1-7B表现好约30%。百川2专门针对数学和编码问题进行了优化。

百川2在GSM8K和HumanEval测试中大约使百川1的结果翻倍。此外,百川2在医学和法律领域的工作中表现出色。百川2在MedQA和JEC-QA等基准测试上击败了其他开源模型,为领域特定优化提供了良好的基础模型。他们还创建了两个遵守人类指令的对话模型:百川2-7B-Chat和百川2-13B-Chat。这些模型在理解对话和上下文方面表现出色。他们将详细介绍他们提高百川2安全性的策略。通过开源这些模型,社区可以进一步提高大型语言模型的安全性,同时促进对负责任创建LLM的更多研究。

此外,他们将以研究合作和持续进展的精神,在不同的训练阶段发布百川2的检查点,从2000亿个标记到整个26万亿个标记。他们发现,即使在70亿个参数模型上进行超过26万亿个标记的训练后,性能仍然不断提高。他们希望通过传播这些中期研究结果,让社区更加了解百川2的训练动态。揭示巨大语言模型的内在运作需要理解这些动态。这些检查点的发布将为这个快速发展的领域带来新的发展机会。百川2的聊天和基础模型可在GitHub上供学习和商业目的使用。