《使用huggingface🤗训练Pipeline的面向LLMs的RLHF》
《面向LLMs的RLHF:使用Huggingface训练Pipeline》
学习如何使用这个Python实践指南开发自己的领域特定LLM
作者
本博客文章由Marcello Politi和Vijayasri Iyer撰写。
介绍
现在,人人都在谈论生成式人工智能和大型语言模型。像ChatGPT和Grok这样的模型已经成为如今家喻户晓的名字,有很多人希望采用基于这些技术的解决方案来改进他们的业务。
不过,必须承认的是,虽然这些模型的语言能力令人印象深刻,但它们离完美还有很大距离;实际上,我们仍然无法解决许多重大问题。
像所有机器/深度学习模型一样,LLMs是从数据中学习的。因此,无法摆脱垃圾进垃圾出的规则。也就是说,如果我们用质量低下的数据来训练模型,推理时输出的质量也会同样低下。
这就是为什么在与LLMs对话时会出现带有偏见(或成见)的回应的主要原因。
然而,有一些技术可以让我们对这些模型的输出拥有更多控制权,以便确保LLM的准确性,使模型的回应不仅准确和连贯,而且还从开发者和用户的角度来看是安全的、符合伦理的、值得期待的。目前最常用的技术就是使用强化学习
使用人类反馈的强化学习

使用人类反馈的强化学习(RLHF)最近引起了很多关注,它在NLP领域,尤其是大型语言模型(LLMs)的应用中开启了一场新的革命。在这篇博客中,我们将学习如何使用Huggingface库进行LLM的完整RLHF训练流程。
RLHF流程包括以下3个阶段:
- 领域特定预训练:对经过预训练的LLM进行原始文本的微调…