“短文本和图片的连接笔记”
美丽与时尚专家带你领略“文图相连的笔记”
Radford, Alec, 等.“通过自然语言监督学习可迁移的视觉模型。” 机器学习国际会议。PMLR,2021年。
上述论文的作者旨在生成能够在最少或无监督条件下用于各种任务的图像良好表示(特征)。
监督学习的局限性
利用图像分类模型生成的现成特征已被用于其他任务,如图像检索。然而,这些特征的泛化效果并不好,因为分类模型是经过训练以识别一组固定类别的。如果新增类别需要将其添加到这组类别中,则需要收集额外的带注释图像来训练模型。这是一项耗时且昂贵的过程。
自己监督学习技术能否解决这个问题?
能否利用图像标题作为生成更好的图像表示并避免注释成本?也就是说,能否利用自然语言来监督学习视觉感知?
主要贡献
作者提出了一个预训练任务(CLIP = 对比性 语言-图像 预训练),用于预测哪个标题与哪个图像相配以从头开始学习最先进的图像表示。为此,他们创建了一个包含4亿个(图像,文本)对的数据集,这些对是从互联网收集而来的。这个预训练模型在大多数任务中都能进行非平凡的迁移,并且通常与完全监督的基准模型竞争,而无需进行任何特定于数据集的训练。
背景
CLIP的灵感来自于监督图像字幕领域。每个带有相应标题的图像被用来训练模型,该模型预测与相应图像的标题中的确切单词。这是一个困难的任务,因为一幅图像可以用多种方式描述,但仍能传达相同的含义。
为了利用标题提供的监督,作者提出了一个代理任务,即预测一个标题是否与特定图像相匹配,而不是逐字预测标题。
对比性预训练
考虑一批N个图像及其对应的N个标题。通过这些,我们可以在批处理中创建N x N个可能的(图像,文本)配对。现在,任务是预测批处理中的N个真实配对。
为此,CLIP通过共同训练图像编码器和文本编码器(见图1)来学习一个多模态嵌入空间。图像编码器生成一个特征向量I;同样地,文本编码器生成一个特征向量T。
- 对于N个真实配对,我们希望I和T之间的余弦相似度最大化。
- 对于N² — N个不正确的配对,我们希望I和T之间的余弦相似度最小化。

零样本预测
考虑图像分类任务(见图2)。在测试时,对于单个图像,图像编码器将产生一个特征向量I₁。为了识别图像的类别,文本编码器嵌入目标数据集的类别名称以生成N个特征向量T₁,T₂等。N是目标数据集中的类别数。

模型详情
对于图像编码器,作者评估了两种不同的架构:
- ResNet-50:他们使用修改过的 ResNet-D(参见论文)架构,并采用抗锯齿 rect-2 模糊池化(参见论文)。他们还替换了全局平均池化层,改为使用“Transformer 风格”的注意力池化机制。
- Vision Transform(ViT):作者在变换器之前使用了附加的层归一化对混合的补丁和位置嵌入进行处理,并采用稍微不同的初始化方案。
对于文本编码器,使用了这篇论文中描述的具有 6300 万参数(12 层 512 宽)和 8 个注意力头的 Transformer。
训练
作者训练了 5 个 ResNets(ResNet-50、ResNet-101 和 3 个 EfficientNet 风格的 ResNet 模型)和 3 个 Vision Transformers(ViT-B/32、ViT-B/16 和 ViT-L/14)。这些模型使用 Adam 优化器进行 32 轮训练,并使用余弦调度方式衰减学习率。他们使用了非常大的 minibatch 大小为 32,768。
一些结果和讨论
提示工程的影响:
图像分类数据集的标签 ID 被映射到类名。由于 CLIP 模型是使用文本作为完整句子进行训练的,作者发现使用提示模板“A photo of a {label}.”作为与图像相关联的文本是一个很好的默认值。在图 3 中,我们可以看到使用提示工程后,36 个分类数据集上的分类准确性提高了 5 个百分点。

零样本 CLIP 与线性探测的对比
零样本 CLIP 分类器在 27 个数据集中有 16 个超过了基于 ResNet-50 特征训练的监督线性分类器的性能(图 4)。然而,CLIP 的性能仍然低于大多数数据集的最新技术水平。

限制
- CLIP 在像计算图像中的对象数量或找到图像中最近对象的距离等任务上表现不佳。
- 它在像 MNIST 这样的分布外数据集上表现非常糟糕。然而,在数字 OCR 上的性能很好,但在识别 MNIST 中手写数字方面的准确率只有 88%。
- 使用 CLIP 进行少样本学习会导致性能下降。从零样本学习到少样本学习时,性能出现了反直觉的下降。
- 由于 CLIP 是根据从互联网查询的文本-图像对进行训练的,它会学习到许多社会偏见。