如何减轻细粒度图像分类中的背景引起的偏差?屏蔽策略和模型架构的比较研究

减轻背景引起的偏差:屏蔽策略和模型架构比较研究

细粒度图像分类深入研究了在更广泛的类别中区分密切相关的子类别。例如,不仅仅将图像识别为”鸟”,这种方法可以区分特定的鸟类。由于这些任务的复杂性,这些模型经常无意中依赖于图像背景中的微小信息。背景信息可以提供上下文线索,但也可能产生偏见。例如,如果模型在训练过程中经常在城市环境中观察到鸟类,它可能会错误地将所有城市背景与麻雀相关联。消除这种背景引起的偏见以获得更准确的结果非常重要,因为它会限制模型在现实世界中的适用性。

现代细粒度图像分类算法通常依赖于卷积神经网络(CNN)和视觉转换器(ViT)作为它们的结构基础。然而,仍然存在一个根本性问题:对象出现的背景环境可以显著影响人类和机器。深度学习模型经常无意中更关注背景,有时甚至可以仅基于背景进行分类。当这些模型在具有不寻常、陌生背景的场景中使用时,它们的性能会严重下降。

为了克服背景偏差带来的挑战,法国蒙彼利埃大学的研究团队最近发表了一项新研究,提出了研究两种主要策略:

  • 早期遮罩:在最初的图像级别上去除背景细节。
  • 后期遮罩:在模型更高级、更抽象的阶段对与背景相关的特征进行遮罩。

该研究的关键贡献是对细粒度图像分类中背景引起的偏见进行了深入研究。它仔细分析了像CNN和ViT这样的复杂模型在面对这些偏见时的表现,并提供了创新的遮罩技术来解决这些问题。

具体而言,早期遮罩涉及在图像的输入阶段去除背景。在像CNN或Vision Transformers这样的模型对图像进行分类之前,使用二值分割网络对图像的背景区域进行遮罩,使模型只关注主要对象。相比之下,后期遮罩允许模型最初处理整个图像,但在更高级别的阶段遮罩与背景相关的高级空间特征。这两种方法旨在确保模型专注于感兴趣的对象,减少由背景细节引起的偏见,这对于细粒度分类来说尤为重要,因为类别之间的区别可能很微妙。

为了评估这两种策略,研究人员进行了一项实验研究。在实验中,使用包含200种鸟类图像的CUB数据集对模型进行训练。对CUB测试集和Waterbirds数据集进行了评估,Waterbirds数据集是一个超出分布(OOD)的数据集,其中CUB图像的背景被更改为来自Places数据集的背景。研究人员使用了多个模型布局,比如ConvNeXt和ViT,以及小型、基础和大型模型尺寸。结果显示,经过早期遮罩训练的模型通常优于没有进行早期遮罩训练的模型,尤其是在OOD的Waterbirds测试集上。这表明,使用早期遮罩可以减少图像背景引起的偏见,并改善模型的泛化能力。

总之,作者对CNN和ViT模型在超出分布(OOD)图像上的泛化能力进行了背景引起的偏见的研究。他们测试了各种背景遮罩技术,并发现早期遮罩对于两种模型类型都是最有效的。该研究强调了背景考虑在图像任务中的重要性,并提出了减少偏见和增强泛化能力的策略。