使用Hugging Face的Transformer模型构建评论毒性排序器

使用Hugging Face的Transformer模型构建评论毒性排序器' The condensed result is '构建评论毒性排序器的Hugging Face Transformer模型

追赶自然语言处理和大型语言模型(第一部分)

Brett Jordan在Unsplash上的照片

介绍

作为一名数据科学家,我从未有机会真正探索自然语言处理领域的最新进展。随着今年年初以来大型语言模型的新兴热潮,我决定是时候深入研究这个领域并开始一些小型项目了。毕竟,没有比实践更好的学习方式。

在我开始这个旅程时,我意识到很难找到一篇文章,能够手把手地引导读者逐步理解新的自然语言处理模型并通过具体项目实践。这就是我决定开始这个新系列文章的原因。

使用HuggingFace的Transformer模型构建评论毒性排名器

在这篇第一篇文章中,我们将深入研究构建评论毒性排名器的过程。这个项目的灵感来自去年在Kaggle上举行的“Jigsaw评价有害评论的严重程度”竞赛。

竞赛的目标是构建一个具有判定哪个评论(从两个给定的输入评论中选择)最具有毒性的能力的模型。

为了实现这一目标,模型将为每个传入的评论分配一个分数,以确定其相对毒性。

本文将涵盖的内容

在本文中,我们将使用Pytorch和Hugging Face transformers来训练我们的第一个自然语言处理分类器。我不会深入讲解transformers的工作原理,而是更多地关注实践细节和实现,并介绍一些在本系列文章中将会有用的概念。

具体而言,我们将会看到:

  • 如何从Hugging Face Hub下载模型
  • 如何自定义和使用编码器
  • 从Hugging Face模型中构建和训练一个Pytorch排名器

本文直接面向希望从实践角度提升自己在自然语言处理领域的数据科学家。我不会做太多细节解释…