“《鲸鱼2号内部:微软教授小型语言模型推理的新方法》

魅力与时尚专家揭秘《鲸鱼2号内部:微软教授小型语言模型推理的新方法》

该模型在推理基准测试中表现优于更大的LLM。

使用DALL-E创建

我最近开始了一个以人工智能为重点的教育通讯,已经有超过160,000名订阅者了。TheSequence是一个没有炒作没有新闻等内容的面向机器学习的通讯,每天只需5分钟阅读。其目标是让您了解机器学习项目、研究论文和概念的最新动态。请通过下方订阅,试试看:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据发展的最佳信息源…

thesequence.substack.com

今年早些时候,微软研究团队推出了Orca,一个具有130亿参数的模型,可以模拟其他LLMs展示的复杂推理过程。具体而言,Orca从GPT-4信号中学习,包括解释性痕迹、一丝不苟的逐步思考和复杂指令的一系列。几天前,微软在这方面的工作得到了扩展,并发布了Orca 2,这是对突破性工作的扩展,更深入地探索了小型语言模型(SLMs)领域。这个新版本挑战了推理的传统方法,推动了这个领域可能性的边界。

传统上,SLMs的训练主要依赖模仿学习,力求复制其更杰出的对应物的输出。然而,微软研究团队认为,对模仿的不懈强调可能会无意中限制了这些较小型模型的潜力。这里的目标是赋予小型LLMs使用多样化的解决策略来完成各种任务,这些策略可能与较大型模型所采取的路线不同。

Orca 2的核心是两个关键技术:

i.指导调整:这是LLM领域中近期引起关注的一个概念。该技术涉及从输入-输出对中学习,其中输入是自然语言任务描述,输出展示了所期望的行为。指导调整的有效性已经在提高模型在熟悉和陌生任务中遵循指令的能力、提升生成内容的整体质量以及赋予模型增强的零样本能力和高级推理能力方面得到了证明。

ii.解释调整:虽然指导调整非常高效,但它也有一些局限性。特别是,它可能导致模型生成风格上无误的但事实上错误的输出。例如,过度简洁的指导调整可能剥夺学生模型对复杂推理过程的深入理解,从而限制其在各种任务中的泛化能力。为了解决这个问题,Orca 1引入了解释调整,这是一种新颖的方法,旨在使用更丰富和富有表达力的推理信号训练学生模型。这涉及到制定系统指导,提示教师模型在执行任务时提供详细解释。这些系统指导作为高级指导指南,LLMs必须遵循,以便在与每个用户提示进行互动时,与用户主导的对话区分开,通过ChatML界面中的“系统”角色标志来实现。

微软将这两种技术结合在Orca 2中,以实现在SLMs中高效的推理。

Orca 2和谨慎推理

谨慎推理是确定给定任务最适合的解决策略的过程。这个选择过程涵盖了一系列选项,从直接生成答案到利用更深思熟虑的“慢思考”策略,如逐步推理、猜测和检查,或先解释后回答等。以下阐述了训练谨慎推理语言模型(LLM)的方法:

1)开始具有多样化的任务集合,代表了各种挑战的横截面。

2)根据Orca的性能获得的见解,对哪些任务需要具体的解决方案策略做出明智的决策,无论是直接回答、逐步回答、先解释后回答还是其他策略。

3)为选定的策略制定任务特定的系统说明,以便为每个任务获取教师的回应。

4)在训练阶段,采用一种称为“Prompt Erasing”(提示擦除)的过程,将学生的系统说明替换为不包含任务特定细节的通用说明,强调模型的自主学习。

谨慎的推理过程在以下对话中得到了清楚的说明,展示了学生模型如何在没有具体指示的情况下学习策略。

图片来源:微软研究

为了训练Orca 2,微软建立了一个全新的数据集,拥有大约817,000个训练实例/。在Orca 1打下的基础上,Orca 2经历了渐进式学习,从原始FLAN注释、Orca 1数据集和新创建的Orca 2数据集中提取数据子集。这个训练数据集的基石仍然是FLAN,丰富了数学挑战和一些少量示例。

Orca 2的核心训练依赖于一种称为进度学习的技术,该技术通过使用LLaMA-2–7B或LLaMA-2–13B检查点之一开始训练,然后在FLAN-v2数据集的训练集上进行精调,进行单个时期的训练。值得注意的是,FLAN-v2数据集包括零样例和少样例问题。随后,模型进行了5百万次的Orca 1 ChatGPT数据实例训练,涵盖了三个时期。最后一轮的训练包括了一个由Orca 1和Orca 2的817,000个数据样本组成的复合数据集,该数据集包含了100万个GPT-4数据实例。

评估

微软进行了一项全面评估,用于评估Orca 2的能力。这个评估涵盖了各种基准测试,从推理能力到文本补全等基本任务,以及基于事实、真实性和安全性的任务。

图片来源:微软研究

Orca 2的工作突显了增强SLM推理能力的可能性。通过在合成数据上进行专门训练,Orca 2模型不仅展示了可行性,还达到了更高的性能水平。通过利用一系列推理技术,并巧妙地确定每个任务的最有效解决策略,这些模型在零样例推理任务领域往往表现出与更大的模型相匹配甚至超越的能力。虽然承认与基础模型相关的固有限制和约束的存在,但Orca 2模型在增强推理能力、控制能力和安全性方面呈现了一个充满希望的前景,这要归功于在后训练改进中对合成数据的战略性应用。