Orca LLM:模拟ChatGPT的推理过程

Orca是一个拥有13B个参数的模型,它学习模仿LFMs的推理过程它使用渐进式学习和来自ChatGPT的教师辅助来克服容量差距通过利用GPT-4的丰富信号,Orca增强了其能力并提高了模仿学习的性能

简介

在大型语言模型(LLMs)领域中,一直在不断追求增强较小模型的能力,同时又不影响其效率。传统方法是使用模仿学习,即较小模型从大型基础模型(LFMs)生成的输出中学习。然而,这种方法面临着几个挑战,包括来自浅层LFM输出的有限模仿信号、小规模均质训练数据以及缺乏严格的评估。这经常导致较小模型模仿LFMs的风格,而不是其推理过程。

文章《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》介绍了Orca,一个设计用于模仿大型基础模型(LFMs)如GPT-4的推理过程的130亿参数模型。与传统的大型语言模型(LLMs)不同,Orca采用了一种独特的训练方法,结合了渐进式学习和教师辅助,以克服较小学生模型和其大型对应模型之间的容量差距。

培训方法

Orca的培训过程分为两个阶段。

在第一阶段,Orca受到FLAN-5M的训练,其中包括ChatGPT的增强。该中间教师助手有助于弥合Orca和参数规模显着更大的GPT-4之间的容量差距。通过利用ChatGPT的能力,Orca从改进的模仿学习性能中受益。

在第二阶段,Orca在FLAN-1M上进行训练,其中包含GPT-4的增强。这种渐进式学习方法遵循课程学习范例,学生模型从更容易的例子中学习,然后再解决更具挑战性的例子。通过逐步暴露Orca到越来越复杂的推理和逐步解释中,该模型增强了其推理能力和模仿技能。

优点和贡献

Orca的培训方法比传统的LLMs提供了几个优点。

首先,它通过利用中间教师模型来解决容量差距问题,使Orca能够从更有能力的来源中学习。研究已经表明,这种方法可以提高较小学生模型的模仿学习性能。

其次,Orca培训的渐进式学习方面使该模型逐步增加其知识。通过从简单的例子开始,并逐步引入更复杂的例子,Orca为推理和解释生成打下了更坚实的基础。

此外,Orca能够模仿GPT-4等LFMs的推理过程,为各种任务的性能提供了提升的可能性。通过利用GPT-4的解释痕迹和逐步思考过程提供的丰富信号,Orca获得了宝贵的见解,并提高了自己的能力。

性能基准

Orca在复杂的零点推理基准测试中表现出了出色的性能。它在Big-Bench Hard(BBH)等基准测试上比传统的最新指令调整模型如Vicuna-13B高出100%以上,并在AGIEval上高出42%以上。此外,Orca在BBH基准测试上取得了与ChatGPT相同的分数,并在SAT、LSAT、GRE和GMAT等专业和学术考试中显示出竞争性的表现。考虑到这些是零点设置而没有思路链,Orca仍然表现出竞争性,尽管落后于GPT-4。

意义和未来方向

Orca的发展代表了LLMs领域的一项重大进展。通过从丰富的信号中学习和模仿LFMs的推理过程,Orca能够以高度准确性执行复杂的推理任务。这具有广泛的意义,特别是在需要复杂推理和问题解决的领域。

此外,这项研究表明,从逐步AI模型解释中学习是改进模型能力的有前途的方向。这为LLMs领域的研究和发展开辟了新的途径。

结论

Orca提供了一种新颖的方法来培训大型语言模型,结合了渐进式学习和教师辅助来增强模仿学习。通过利用中间教师模型和逐步暴露学生模型到更复杂的例子中,Orca克服了容量差距并提高了其推理和解释生成能力。该论文的研究结果有助于模仿学习技术的进展,并对未来语言模型的发展有影响。

有关Orca及其研究的更多详细信息,请参阅Microsoft的介绍性文章和附带的研究论文。