伯克利加州大学推出通过人工智能反馈训练的开放式法学硕士项目

伯克利加州大学推出人工智能辅助的开放式法学硕士项目,让学生通过反馈训练获得更好的学习效果

在一份新的报告中,加州大学伯克利分校的研究人员介绍了Starling-7B,这是一个通过Reinforcement Learning from AI Feedback(RLAIF)技术打造的革命性大型语言模型。研究人员希望这个模型能够重新定义自然语言处理领域,融合尖端技术和方法论。

研究人员指出,Starling-7B的核心在于GPT-4标记数据集Nectar。该数据集拥有183,000个聊天提示,每个提示包含来自GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct以及Llama2-7B等多个模型的七个回复。

据报告显示,Nectar共进行了380万次成对比较。为了确保公正性,研究人员在对GPT-4进行排名时,详细说明了处理位置偏见的过程。

利用一种新颖的奖励模型,研究人员改进了Openchat 3.5语言模型,取得了令人瞩目的结果。AlpacaEval得分从88.51%提升至91.99%,而MT-Bench得分从7.81上升至8.09,这是衡量聊天机器人实用性的两个重要指标。

通过使用Direct Preference Optimization(DPO)对Starling-7B与Zephyra-7B、Neural-Chat-7B和Tulu-2-DPO-70B等开源模型进行测试,发现它在聊天机器人领域表现强劲。然而,与OpenHermes 2.5和Openchat 3.5等顶级SFT模型相比,它在MT Bench中表现不佳。

尽管具备一定的优点,Starling-7B面临着一些挑战。它容易受到欺骗性方法的影响,处理数学和推理任务时存在困难,并且有时输出的真实性可疑。

研究人员认识到这些局限性,并计划通过引入基于规则的奖励模型来完善Starling-7B,这些模型受到GPT-4技术在技术报告中的概述。然而,Starling-7B代表了大型语言模型领域的一大进步。

这是因为它能够通过AI Feedback展示强化学习的潜力,这是各种模型和共享社区知识在自然语言处理领域的一种合作。

目前,Starling-7B的许可证为研究预览版,仅供非商业用途,包括数据集、模型和在线演示。