“见证LLM360:首个全面开源透明的大型语言模型(LLMs)”
揭秘LLM360:首个完全开源透明的大型语言模型(LLMs)
开源的大型语言模型(LLMs),如LLaMA、Falcon和Mistral,为AI专业人士和学者提供了一系列选择。然而,这些LLMs中的大部分只提供了选择性组件,如最终模型权重或推理脚本,并且技术文档通常将焦点限制在更广泛的设计方面和基本度量上。这种方法通过降低LLMs的训练方法的清晰度,限制了该领域的进展,导致团队不断努力揭示训练过程的许多方面。
Petuum、MBZUAI、USC、CMU、UIUC和UCSD的研究人员团队推出了LLM360,以支持开放和协作的AI研究,使端到端的LLM训练过程对所有人透明和可复现。LLM360是一个完全开源LLMs的倡议,主张将所有训练代码和数据、模型检查点和中间结果提供给社区。
LLM360最接近的项目是Pythia,它也旨在实现LLMs的完全可复现性。EleutherAI的模型,如GPT-J和GPT-NeoX,已经发布了训练代码、数据集和中间模型检查点,展示了开源训练代码的价值。INCITE、MPT和OpenLLaMA发布了训练代码和训练数据集,RedPajama也发布了中间模型检查点。
- OpenAI计划在班加罗尔举办开发者会议,以解决人工智能安全问题的关切
- 谷歌研究人员揭示了一种新的单次运行方法,用于审计差分隐私机器学习系统
- 使用Amazon SageMaker Pipelines、GitHub和GitHub Actions构建端到端的MLOps流水线
LLM360发布了两个7B参数的LLMs,AMBER和CRYSTALCODER,以及它们的训练代码、数据、中间检查点和分析。该研究回顾了预训练数据集的详细信息,包括数据预处理、格式、数据混合比例和LLM模型的架构细节。
研究提到了使用先前工作引入的记忆分数,并释放了度量、数据块和检查点,以便研究人员能够轻松找到它们的对应关系。研究还强调了去除LLMs预训练的数据的重要性,以及关于数据过滤、处理和训练顺序的详细信息,以评估LLMs的风险。
研究对四个数据集进行了基准测试,分别是ARC、HellaSwag、MMLU和TruthfulQA,展示了模型在预训练过程中的性能。在预训练期间,HellaSwag和ARC的评估分数单调递增,而TruthfulQA的分数下降。MMLU的分数一开始下降,然后开始增长。AMBER的性能在MMLU等评分中相对竞争力强,但在ARC方面落后。经过微调的AMBER模型与其他类似模型相比表现出色。
总之,LLM360是一个全面和完全开源的LLMs倡议,旨在推动开源LLM预训练社区的透明度。该研究发布了两个7B LLMs,AMBER和CRYSTALCODER,以及它们的训练代码、数据、中间模型检查点和分析。研究强调了从各个角度的开源LLMs的重要性,包括发布检查点、数据块和评估结果,以实现全面分析和可复现性。