微软人工智能推出鲸鱼(Orca):一个拥有130亿参数的模型,学习模仿大型基础模型(LFMs)的推理过程

大型基础模型(LFMs)如ChatGPT和GPT-4所展示的惊人的零样本学习能力引发了一个问题:这些模型是否可以在最小的人类干预下自主监督其行为或其他模型?为了探索这一点,微软研究人员团队引入了Orca,这是一个13亿参数的模型,从GPT-4中学习复杂的解释跟踪和逐步的思维过程。这种创新方法显著提高了现有最先进的指导调整模型的性能,解决了与任务多样性、查询复杂性和数据扩展相关的挑战。

研究人员承认,从GPT-4中的查询和响应对可以为学生模型提供有价值的指导。因此,他们通过添加详细的响应来增强这些对,以更好地理解教师在生成响应时所采用的推理过程。通过结合这些解释跟踪,Orca赋予了学生模型更好的推理和理解能力,有效地弥合了教师和学生之间的差距。

研究团队利用Flan 2022集合进一步增强了Orca的学习过程。该团队从这个广泛的集合中抽样任务,以确保具有多样化的挑战。然后对这些任务进行子抽样,生成用于LFMs的复杂提示,作为查询。这种方法创建了一个多样化和丰富的训练集,促进了Orca的强大学习,使其能够有效地处理各种任务。

研究人员进行全面评估,评估Orca的能力,重点关注生成、推理和理解能力。他们将Orca的性能与Text-Davinci-003、ChatGPT、GPT-4和Vicuna等强基准进行比较。结果表明,Orca优于基于指导调整的模型,如Vicuna-13B,在BigBench Hard(BBH)方面的提高超过100%。此外,Orca在零样本设置下的学术考试上表现出竞争力,表明其在现实世界应用中具有潜力。

研究结果确认了从逐步解释中学习以提高模型性能的巨大潜力。通过结合详细的解释跟踪和扩展具有复杂提示的任务,Orca在指导调整模型方面取得了重大进展。这种方法不仅赋予学生模型提高推理和理解能力的能力,还使它们能够超越现有的基准。

Orca的引入及其成功应用于提高指导调整模型的情况为未来的研究提供了令人兴奋的前景。随着LFMs的不断发展,自监督学习机制和最小人工干预监督其他模型的能力可能会彻底改变人工智能领域。通过从复杂的解释跟踪中改进学习过程,研究人员可以继续增强模型在各种任务中的性能,推动自然语言处理的进步。

总之,Orca的引入是一个重大突破,它是一个13亿参数的模型,从GPT-4中学习解释跟踪。通过解释调整、扩展任务和指令以及严格评估,Orca超越了现有的模型,标志着AI系统能力的重大飞跃。在培训过程中结合逐步解释的方法有望充分释放大型基础模型的潜力,并推动自然语言处理的进步。