训练和微调句子转换模型

训练和微调句子转换模型

查看使用Notebook Companion的教程:



训练或微调Sentence Transformers模型高度依赖于可用的数据和目标任务。关键在于:

  1. 理解如何将数据输入模型并相应地准备数据集。
  2. 了解不同的损失函数以及它们与数据集的关系。

在本教程中,你将会:

  1. 通过从头开始创建一个Sentence Transformers模型或者从Hugging Face Hub微调一个模型,来理解Sentence Transformers模型的工作原理。
  2. 了解数据集可能的不同格式。
  3. 回顾根据数据集格式选择的不同损失函数。
  4. 训练或微调模型。
  5. 将模型分享到Hugging Face Hub。
  6. 了解何时Sentence Transformers模型可能不是最佳选择。

Sentence Transformers模型的工作原理

在Sentence Transformers模型中,你将一个可变长度的文本(或图像像素)映射为表示该输入意义的固定大小的嵌入。要开始使用嵌入,请查看我们以前的教程。本文重点介绍文本。

Sentence Transformers模型的工作原理如下:

  1. 第一层 – 输入文本通过一个预训练的Transformer模型,该模型可以直接从Hugging Face Hub获得。本教程将使用“distilroberta-base”模型。Transformer的输出是所有输入标记的上下文化单词嵌入;可以想象一个文本中每个标记的嵌入。
  2. 第二层 – 嵌入通过池化层得到一个表示整个文本的单个固定大小的嵌入。例如,平均池化会对模型生成的嵌入进行平均。

下图总结了这个过程:

记得使用pip install -U sentence-transformers命令安装Sentence Transformers库。在代码中,这个两步过程很简单:

from sentence_transformers import SentenceTransformer, models

## 第一步:使用一个已有的语言模型
word_embedding_model = models.Transformer('distilroberta-base')

## 第二步:使用一个池化函数对标记嵌入进行池化
pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())

## 使用modules参数将第一步和第二步连接起来
model = SentenceTransformer(modules=[word_embedding_model, pooling_model])

从上面的代码中,你可以看到Sentence Transformers模型由模块组成,也就是一系列按顺序执行的层。输入文本进入第一个模块,最终输出来自最后一个组件。尽管看起来很简单,但上述模型是Sentence Transformers模型的典型架构。如果需要,还可以添加其他层,例如密集层、词袋模型和卷积层。

为什么不直接使用Transformer模型(如BERT或Roberta)来为整个句子和文本创建嵌入?至少有两个原因:

  1. 预训练的Transformer在执行语义搜索任务时需要大量计算。例如,对于一组10,000个句子中找到最相似的一对,使用BERT需要进行大约5000万次推理计算(约65小时)。相比之下,使用BERT Sentence Transformers模型的时间缩短到约5秒。
  2. 一旦训练完成,Transformer模型无法直接创建良好的句子表示。将BERT模型的标记嵌入平均后作为句子嵌入的性能低于2014年开发的GloVe嵌入。

在本节中,我们将从头开始创建一个Sentence Transformers模型。如果你想微调现有的Sentence Transformers模型,可以跳过上述步骤,从Hugging Face Hub导入模型。你可以在“Sentence Similarity”任务中找到大多数Sentence Transformers模型。这里我们加载了“sentence-transformers/all-MiniLM-L6-v2”模型:

from sentence_transformers import SentenceTransformer

model_id = "sentence-transformers/all-MiniLM-L6-v2"
model = SentenceTransformer(model_id)

现在,让我们来看看最关键的部分:数据集的格式。

如何准备用于训练Sentence Transformers模型的数据集

要训练一个句子转换模型,你需要以某种方式告诉它两个句子之间有一定程度的相似性。因此,数据中的每个例子都需要一个标签或结构,让模型能够理解两个句子是相似还是不同。

不幸的是,没有一种单一的方法来准备数据训练句子转换模型。这在很大程度上取决于你的目标和数据的结构。如果你没有明确的标签,这是最有可能的情况,你可以从获得句子的文档设计中推导出来。例如,同一份报告中的两个句子应该更可比,而不同报告中的两个句子可能不太可比。相邻的句子可能比非相邻的句子更可比。

此外,数据的结构将影响你可以使用的损失函数。这将在下一节中讨论。

请记住,本文的笔记本伴侣已经实现了所有的代码。

大多数数据集的配置将采用以下四种形式之一(下面将看到每种情况的示例):

  • 情况1:示例是一对句子和一个指示它们相似程度的标签。标签可以是整数或浮点数。这种情况适用于最初为自然语言推理(NLI)准备的数据集,因为它们包含一对句子,并附有一个标签,指示它们是否推理。
  • 情况2:示例是一对正面(相似)句子没有标签。例如,一对释义、一对完整文本及其摘要、一对重复的问题、一对(查询响应)或一对(源语言目标语言)。自然语言推理数据集也可以以这种方式格式化,通过配对包含的句子。如果你的数据以这种格式存在,那么你可以使用MultipleNegativesRankingLoss,这是句子转换模型中最常用的损失函数之一。
  • 情况3:示例是带有整数标签的句子。这种数据格式可以很容易地通过损失函数转换为三个句子(三元组),其中第一个是“锚点”,第二个是与锚点相同类别的“正面”,第三个是与不同类别的“负面”。每个句子都有一个整数标签,指示它所属的类别。
  • 情况4:示例是没有类别或标签的三元组(锚点、正面、负面)。

例如,在本教程中,你将使用第四种情况的数据集来训练一个句子转换器。然后,你将使用第二种情况的数据集配置对其进行微调(请参阅本博客的笔记本伴侣)。

请注意,句子转换模型可以使用人工标注(情况1和情况3)或从文本格式中自动推断的标签进行训练(主要是情况2;虽然情况4不需要标签,但要在三元组中找到数据更加困难,除非你将其处理为MegaBatchMarginLoss函数所做的那样)。

在Hugging Face Hub上有针对上述每种情况的数据集。此外,Hub中的数据集还具有数据集预览功能,可以在下载之前查看数据集的结构。以下是每种情况的示例数据集:

  • 情况1:如果你有(或制造)一个指示两个句子之间相似程度的标签,可以使用与自然语言推理相同的设置;例如{0,1,2},其中0表示矛盾,2表示蕴涵。请查看SNLI数据集的结构。

  • 情况2:句子压缩数据集包含由正面对组成的示例。如果你的数据集每个示例有多个正面句子,例如COCO Captions或Flickr30k Captions数据集中的五元组,你可以将示例格式化为具有不同组合的正面对。

  • 情况3:TREC数据集具有指示每个句子类别的整数标签。Yahoo Answers Topics数据集中的每个示例包含三个句子和一个指示其主题的标签;因此,每个示例可以分为三个。

  • 情况4:Quora Triplets数据集是没有标签的三元组(锚点、正面、负面)。

下一步是将数据集转换为句子转换模型可以理解的格式。模型无法接受原始的字符串列表。每个示例必须转换为sentence_transformers.InputExample类,然后转换为torch.utils.data.DataLoader类以批处理和洗牌示例。

使用pip install datasets安装Hugging Face Datasets。然后使用load_dataset函数导入数据集:

from datasets import load_dataset

dataset_id = "embedding-data/QQP_triplets"
dataset = load_dataset(dataset_id)

本指南使用一个无标签的三元组数据集,即上述第四种情况。

通过datasets库,您可以探索数据集:

print(f"- {dataset_id}数据集有{dataset['train'].num_rows}个示例。")
print(f"- 每个示例是一个{type(dataset['train'][0])},其值为{type(dataset['train'][0]['set'])}。")
print(f"- 示例如下:{dataset['train'][0]}")

输出:

- embedding-data/QQP_triplets数据集有101762个示例。
- 每个示例是一个,其值为。
- 示例如下:{'set': {'query': '为什么在印度我们没有像美国那样的一对一政治辩论?', 'pos': ['为什么我们不能在印度像美国那样举行一场公开辩论?'], 'neg': ['Quora上的人们能停止印巴辩论吗?我们厌倦了每天大量看到这种辩论。'...]

您可以看到query(锚点)有一个句子,pos(正例)是一个句子列表(我们打印的只有一个句子),neg(负例)是多个句子的列表。

将示例转换为InputExample对象。为了简单起见,(1)在embedding-data/QQP_triplets数据集中只使用一个正例和一个负例。(2)我们只使用了可用示例的1/2。通过增加示例的数量,您可以获得更好的结果。

from sentence_transformers import InputExample

train_examples = []
train_data = dataset['train']['set']
# 为了灵活性,我们只使用了可用数据的1/2
n_examples = dataset['train'].num_rows // 2

for i in range(n_examples):
  example = train_data[i]
  train_examples.append(InputExample(texts=[example['query'], example['pos'][0], example['neg'][0]]))

将训练示例转换为Dataloader对象。

from torch.utils.data import DataLoader

train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16)

下一步是选择适合数据格式的损失函数。

用于训练Sentence Transformers模型的损失函数

还记得数据可能的四种不同格式吗?每种格式都有与之关联的不同损失函数。

情况1:一对句子和一个指示它们相似程度的标签。损失函数优化使得(1)标签最接近的句子在向量空间中靠近,(2)标签最远的句子尽可能远离。损失函数取决于标签的格式。如果是整数,则可以使用ContrastiveLossSoftmaxLoss;如果是浮点数,则可以使用CosineSimilarityLoss

情况2:如果只有两个相似的句子(两个正例),没有标签,则可以使用MultipleNegativesRankingLoss函数。也可以使用MegaBatchMarginLoss,它会将示例转换为三元组(anchor_i, positive_i, positive_j),其中positive_j作为负例。

情况3:当样本是形如[anchor, positive, negative]的三元组,并且每个样本都有一个整数标签时,损失函数优化模型,使得锚点和正例句子在向量空间中更接近,而锚点和负例句子相距较远。可以使用BatchHardTripletLoss,它要求数据使用整数(例如标签1、2、3)进行标记,假设具有相同标签的样本是相似的。因此,锚点和正例必须具有相同的标签,而负例必须具有不同的标签。另外,您还可以使用BatchAllTripletLossBatchHardSoftMarginTripletLossBatchSemiHardTripletLoss。它们之间的区别超出了本教程的范围,但可以在Sentence Transformers文档中进行查阅。

案例4:如果每个三元组中的句子没有标签,则应使用TripletLoss。此损失函数最小化锚点与正例句子之间的距离,同时最大化锚点与负例句子之间的距离。

下图总结了不同类型的数据集格式、Hub中的示例数据集以及它们适用的损失函数。

最困难的部分是在概念上选择一个合适的损失函数。在代码中,只有两行:

from sentence_transformers import losses

train_loss = losses.TripletLoss(model=model)

一旦数据集处于所需的格式并且已经选择了合适的损失函数,拟合和训练一个句子转换模型就很简单。

如何训练或微调句子转换模型

“SentenceTransformers的设计目标是使微调自己的句子/文本嵌入模型变得简单。它提供了大部分构建块,可以组合在一起为特定任务调整嵌入。” – Sentence Transformers文档。

训练或微调的过程如下:

model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=10)

请记住,如果您正在微调现有的句子转换模型(参见笔记本伴侣),则可以直接从中调用fit方法。如果这是一个新的句子转换模型,您首先必须像在“句子转换模型的工作原理”部分中所做的那样定义它。

就是这样,您有了一个新的或改进的句子转换模型!您是否想将其分享到Hugging Face Hub上?

首先,登录到Hugging Face Hub。您需要在“帐户设置”中创建一个write令牌。然后有两种登录选项:

  1. 在终端中键入huggingface-cli login,然后输入您的令牌。

  2. 如果在Python笔记本中,可以使用notebook_login

from huggingface_hub import notebook_login

notebook_login()

然后,您可以通过调用训练模型的save_to_hub方法来共享您的模型。默认情况下,模型将上传到您的账户。但是,您可以通过在organization参数中传递它来上传到一个组织中。save_to_hub会自动生成模型卡片、推理小部件、示例代码片段和更多详细信息。您可以使用train_datasets参数自动将训练模型所使用的数据集列表添加到Hub的模型卡片中:

model.save_to_hub(
    "distilroberta-base-sentence-transformer", 
    organization= # 添加您的用户名
    train_datasets=["embedding-data/QQP_triplets"],
    )

在Notebook Companion中,我使用了embedding-data/sentence-compression数据集和MultipleNegativesRankingLoss损失来微调了相同的模型。

Sentence Transformers的限制是什么?

对于语义搜索,句子转换模型的性能要比简单的Transformer模型好得多。但是,句子转换模型在哪些方面效果不好?如果您的任务是分类,则使用句子嵌入是错误的方法。在这种情况下,🤗 Transformers库将是更好的选择。

额外资源

  • 开始使用嵌入。
  • 理解语义搜索。
  • 开始您的第一个句子转换模型。
  • 使用句子转换生成播放列表。
  • Hugging Face + Sentence Transformers文档。

感谢阅读!祝您享受嵌入制作的乐趣。