认识FLM-101B:一个拥有1010亿参数的开源解码器型LLM

FLM-101B是一个拥有1010亿参数的开源解码器型LLM

最近,大型语言模型(LLM)在自然语言处理(NLP)和多模态任务方面表现出色,但面临两个重大挑战:高计算成本和难以进行公平评估。这些成本限制了LLM的发展范围,仅限于少数几个主要参与者,限制了研究和应用。为了解决这个问题,该论文引入了一种增长策略,以显著降低LLM的训练成本,强调在该领域需要成本效益的训练方法。

为了解决训练成本的挑战,研究人员通过增长策略训练了一个1000亿参数的LLM。增长意味着在训练过程中,参数数量不是固定的,而是从一个较小的大小扩展到一个较大的大小。为了评估大型语言模型(LLM)的智能程度,研究人员开发了一个综合的智商评估基准。该基准考虑了智能的四个关键方面:

  • 符号映射:通过符号映射方法测试LLM在新环境中推广的能力,类似于使用符号而不是类别标签的研究。
  • 规则理解:该基准评估LLM是否能够理解已建立的规则并相应地执行动作,这是人类智能的一个关键方面。
  • 模式挖掘:评估LLM通过归纳和演绎推理识别模式的能力,反映了模式挖掘在各个领域的重要性。
  • 抗干扰能力:该指标衡量LLM在外部干扰存在的情况下保持性能的能力,突出了与抗干扰有关的智能核心方面。

本研究的主要贡献可以总结如下:

  • 开创性的成就是通过从头开始的增长策略成功训练了一个具有1000亿参数的大型语言模型(LLM)。值得注意的是,这代表了以仅10万美元的预算创建一个1000亿+参数模型的最具成本效益的方法。
  • 研究通过改进FreeLM训练目标、优化超参数的有希望方法以及引入保持函数的增长,解决了LLM训练中的各种不稳定问题。这些方法改进为更广泛的研究社区带来了希望。
  • 进行了全面的实验,包括基于知识的良好建立的基准以及新的系统化智商评估基准。这些实验使得可以将模型与强大的基线模型进行比较,展示了FLM-101B的竞争力和韧性表现。
  • 研究团队通过发布模型检查点、代码、相关工具和其他资源为研究社区做出了重要贡献。这些资产旨在促进在1000亿+参数规模下双语中英文LLM领域的进一步研究。

总的来说,这项工作不仅证明了成本效益的LLM训练的可行性,还为评估这些模型的智能提供了更强大的框架,最终使该领域更接近实现AGI。