探索指令调整语言模型:见识 Tülu-一套经过微调的大型语言模型(LLMs)套件
由OpenAI开发的著名ChatGPT是最近发布的大型语言模型(LLMs)的最佳示例之一。像ChatGPT这样的LLMs以其无可比拟的潜力和模仿人类执行各种任务的能力而席卷了全球。这些模型大多采用指令微调来帮助模型养成执行一些常见任务的习惯。这种方法涉及对模型进行监督输入和输出对的训练,这些对可以从其他模型中得出。
当前的指令调整语言模型中使用了各种开放式指令跟踪数据集。虽然开放模型可以与尖端专有模型竞争,但这些断言通常只有受限制的评估支持,这使得难以深入比较模型并确定各种资源的价值。为了解决这个问题,来自艾伦人工智能研究所和华盛顿大学的研究人员引入了一系列参数大小从67亿到650亿的指令微调模型。
这些模型是在12个指令数据集上进行训练的,这些数据集范围从合成和精简数据集(例如Alpaca)到手工策划的数据集(例如OpenAssistant)。这些模型在各种领域进行了仔细测试,包括推理、多语言、编码、事实知识和开放式指令跟踪能力。为了提供全面的研究,评估使用了一系列自动、基于模型和基于人的指标。
- 认识Gorilla:加州大学伯克利分校和微软的API增强LLM表现优于GPT-4、Chat-GPT和Claude
- 微软人工智能推出鲸鱼(Orca):一个拥有130亿参数的模型,学习模仿大型基础模型(LFMs)的推理过程
- 普林斯顿大学的研究人员介绍了MeZO:一种记忆效率高的零阶优化器,可以微调大型语言模型(LLM)
该团队还引入了TÜLU,这是一套用于组合数据源微调的大型语言模型。这些模型使用高质量的开放资源组合微调。该团队通过各种评估考察了各种指令微调数据集的性能和其对特定技能的影响。他们发现不同的数据集可以揭示或改进特定的技能,并且单个数据集或一组数据集都不能在所有评估中提供最高的性能。
该团队提到,研究的一个有趣发现是基于基准的评估无法捕捉模型能力差异,这些差异在模型比较中显示。在任何给定的评估中,最佳模型的平均表现为ChatGPT的83%和GPT-4的68%。该团队表示,带有650亿参数的TÜLU是最大的公开发布、完全指令调整的变体,训练了7个流行的可用数据集。它在保持每个单独任务上最佳表现的同时,取得了最佳平均表现,且保持在15%的范围内。
研究论文中提到的一些关键贡献是:
- 特定领域和特定能力指令数据集非常成功地提高了模型性能。
- 更大或更长时间进行预训练的基础模型在指令微调后表现更好。
- TÜLU是最好的平均绩效,它是通过混合现有指令数据集微调的LLaMa,尽管在单独比较各种评估设置时并不是最好的。
- 即使是在许多指令数据集上进行了优化的非常大的650B参数模型,也无法达到ChatGPT的水平,尽管它的表现比可比的较小模型要好得多。
- 基于模型的偏好评估和模型产生的独特令牌数量之间的强相关性表明,基于模型的偏好评估包含可能掩盖模型能力差异的偏见。