大型语言模型(LLM)(如ChatGPT)为何在微调时使用强化学习而不是监督学习的5个原因
大型语言模型(LLM)为何在微调时使用强化学习的5个原因
随着生成式人工智能在过去几个月取得的巨大成功,大型语言模型不断进步和改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI开发的受欢迎的ChatGPT是一个自然语言处理模型,可以让用户像人类一样生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如Pathways Language Model(PaLM),Chinchilla等,也表现出了很好的模仿人类的性能。
大型语言模型使用强化学习进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理通过完成特定任务并观察这些行为的结果来学习在环境中执行。代理对于每个良好的任务都会获得积极的反馈,对于每个不良的行为都会受到惩罚。ChatGPT等LLM表现出了出色的性能,这都要归功于强化学习。
ChatGPT使用人类反馈的强化学习(RLHF)来对模型进行微调,以最小化偏见。但为什么不使用监督学习?基本的强化学习范式包括用于训练模型的标签。但为什么不能直接使用这些标签与监督学习方法一起使用?AI和ML研究员Sebastian Raschka在他的推文中分享了一些原因,为什么在微调中使用强化学习而不是监督学习。
- 不使用监督学习的第一个原因是它只预测排名。它不会生成连贯的回答;模型只学会给与训练集相似的响应高分,即使它们并不连贯。另一方面,RLHF训练的是估计生成回答的质量而不仅仅是排名分数。
- Sebastian Raschka分享了使用监督学习将任务重新构成约束优化问题的想法。损失函数结合了输出文本损失和奖励得分项。这将导致生成的回答和排名的质量更高。但这种方法只在目标是正确生成问答对时才成功。但是,为了实现用户和ChatGPT之间的连贯对话,累积奖励也是必要的,而这是监督学习无法提供的。
- 不选择监督学习的第三个原因是它使用交叉熵来优化标记级别的损失。虽然对于文本段落的标记级别而言,修改回答中的个别单词可能只对整体损失产生小的影响,但生成连贯对话的复杂任务如果一个词被否定,可能会完全改变上下文。因此,依赖监督学习可能是不够的,需要RLHF来考虑整个对话的上下文和连贯性。
- 监督学习可以用于训练模型,但实证表明,RLHF在性能上表现更好。2022年的一篇论文《从人类反馈中学习总结》表明,RLHF的性能优于SL。原因是RLHF考虑到了连贯对话的累积奖励,而SL由于其标记级别的损失函数无法捕捉到这一点。
- 像InstructGPT和ChatGPT这样的LLM同时使用监督学习和强化学习。两者的结合对于达到最佳性能至关重要。在这些模型中,模型首先使用SL进行微调,然后使用RL进一步更新。SL阶段使模型学习任务的基本结构和内容,而RLHF阶段则提高了模型的响应准确性。
本文首发于MarkTechPost。