寻求一种适用于无源领域自适应的通用方法

寻求适用于无源领域自适应的通用方法

由谷歌的研究科学家Eleni Triantafillou和学生研究员Malik Boudiaf发布

深度学习在各种问题和应用中取得了巨大的进展,但是当模型在未知领域或分布中部署时,往往会不可预测地失败。无源域适应(SFDA)是一个研究领域,旨在设计方法,通过仅使用来自后者的无标签数据,将预训练模型(在“源域”上训练)适应新的“目标域”。

设计深度模型的适应方法是一个重要的研究领域。尽管模型规模和训练数据集的增加是其成功的关键因素之一,但这一趋势的一个负面结果是训练这样的模型变得越来越昂贵,有时使得大规模模型训练变得不可接近,并不必要地增加碳排放。通过设计可以利用和重用已经训练好的模型来解决新任务或泛化到新领域的技术是缓解这个问题的一种途径。实际上,在转移学习的大伞下广泛研究了将模型适应新任务的方法。

SFDA是这一研究领域中特别实用的一个领域,因为多个希望适应的现实世界应用受到了目标域中标记示例的缺乏而受到影响。事实上,SFDA正受到越来越多的关注[1, 2, 3, 4]。然而,尽管目标远大,大多数SFDA研究仍然局限在一个非常狭窄的框架中,考虑图像分类任务中的简单分布偏移。

与这一趋势大相径庭地,我们将注意力转向了生物声学领域,那里自然发生的分布偏移是普遍存在的,通常以目标标记数据不足为特点,并且对从业者构成了障碍。在这个应用中研究SFDA不仅可以向学术界提供现有方法的泛化性和开放性研究方向的信息,还可以直接造福该领域的从业者,并有助于解决我们世纪最大挑战之一:生物多样性保护。

在这篇文章中,我们宣布了“寻找一种适用于无源域适应的通用方法”,该文章将在2023年的ICML上发表。我们展示了目前最先进的SFDA方法在面对生物声学中的现实分布偏移时可能表现不佳甚至崩溃。此外,现有方法在相对于其他方法的表现上与视觉基准测试中观察到的不同,令人惊讶的是,有时甚至比没有适应性更差。我们还提出了一个新的简单方法NOTELA,在这些分布偏移上的表现优于现有方法,同时在一系列视觉数据集上表现出色。总的来说,我们得出结论,仅仅在常用数据集和分布偏移上评估SFDA方法会使我们对它们的相对性能和泛化能力有一个狭隘的视角。为了实现它们的承诺,SFDA方法需要在更广泛的分布偏移范围内进行测试,并且我们主张考虑那些可以造福高影响应用的自然发生的分布偏移。

Bioacoustics中的分布偏移

生物声学中自然发生的分布偏移是普遍存在的。鸟类歌声的最大标记数据集是Xeno-Canto(XC),这是一个来自世界各地的用户贡献的野生鸟类录音集合。XC中的录音是“聚焦”的:它们以自然条件下捕获的个体为目标,其中鸟类的歌声处于前景。然而,为了进行持续监测和跟踪,从业者通常更感兴趣的是在通过全向麦克风获得的“声景”中识别鸟类。这是一个有关最近工作显示非常具有挑战性的众所周知的问题。受到这个现实应用的启发,我们使用在XC上预先训练的鸟类物种分类器作为源模型,在来自不同地理位置的几个“声景”(西内华达山脉(S. Nevada);宾夕法尼亚州Powdermill自然保护区,美国;夏威夷;加利福尼亚州Caples集水区,美国;纽约州Sapsucker Woods,美国(SSW);哥伦比亚)作为我们的目标域,来研究生物声学中的SFDA。

这种从聚焦到被动领域的转变是巨大的:后者中的录音往往具有较低的信噪比,同时多只鸟类同时鸣叫,还有显著的干扰和环境噪声,如雨声或风声。此外,不同的声景来自不同的地理位置,导致了极端的标签偏移,因为XC中的一小部分物种将出现在给定位置。此外,由于现实世界数据中常见的情况,源域和目标域都存在显着的类别不平衡,因为某些物种比其他物种更常见。此外,我们考虑了一个多标签分类问题,因为每个录音中可能有几只鸟被识别出来,这与通常研究SFDA的标准单标签图像分类场景有很大的区别。

“焦点→声景”转变的插图。在焦点化领域中,录音通常由前景中的单个鸟类鸣叫组成,信噪比高,尽管背景中可能还有其他鸟类鸣叫。另一方面,声景包含来自全向麦克风的录音,可以由多只鸟同时鸣叫以及昆虫、雨水、汽车、飞机等环境噪声组成。
音频文件                 焦点领域                  声景领域1      
频谱图像                 
焦点领域(左侧)到声景领域(右侧)的分布转变示例,通过每个数据集的代表性录音的音频文件(顶部)和频谱图像(底部)进行说明。请注意,在第二个音频剪辑中,鸟鸣声非常微弱,这是声景录音中常见的特点,鸟鸣声不在“前景”中。来源:左侧:由Sue Riffe提供的XC录音(CC-BY-NC许可)。右侧:来自Kahl、Charif和Klinck提供的记录的摘录。 (2022) “A collection of fully-annotated soundscape recordings from the Northeastern United States” [链接],来自SSW声景数据集(CC-BY许可)。

最新的SFDA模型在生物声学转变上表现不佳

作为起点,我们在我们的生物声学基准测试中对六种最新的SFDA方法进行了基准测试,并将它们与未经调整的基线模型(源模型)进行了比较。我们的发现令人惊讶:除外,现有的方法无法在所有目标领域上始终超越源模型。实际上,它们通常表现不佳。

以最新的方法Tent为例,它旨在通过降低模型输出概率的不确定性,使模型对每个示例产生自信的预测。虽然Tent在各种任务中表现良好,但在我们的生物声学任务中它并不有效。在单标签场景中,最小化熵会迫使模型自信地选择每个示例的一个类别。然而,在我们的多标签场景中,并没有这样的约束,任何类别都不会被选为存在。结合显著的分布变化,这可能导致模型崩溃,使所有类别的概率都变为零。其他进行基准测试的方法,如SHOT、AdaBN、Tent、NRC、DUST和伪标记,它们在标准SFDA基准测试中是强大的基准,但在这个生物声学任务中也面临困难。

在六个声景数据集的适应过程中,测试平均精度(mAP)的演变,这是多标签分类的标准度量。我们对我们提出的NOTELA和Dropout Student进行了基准测试(见下文),以及SHOT、AdaBN、Tent、NRC、DUST和伪标记。除了NOTELA外,所有其他方法都无法持续改进源模型。

引入具有拉普拉斯调整的NOisy student TEacher (NOTELA)

然而,一个令人惊喜的积极结果突出了:不那么受欢迎的Noisy Student原则似乎很有希望。这种无监督的方法鼓励模型在某些目标数据集上通过随机噪声来重建自己的预测。虽然噪声可以通过各种渠道引入,但我们追求简单性,只使用模型的dropout作为唯一的噪声来源:因此,我们将此方法称为Dropout Student (DS)。简言之,它鼓励模型在特定目标数据集上进行预测时,限制个别神经元(或滤波器)的影响。

尽管DS很有效,但在各个目标领域上面临模型崩溃的问题。我们假设这是因为源模型最初在这些目标领域中缺乏自信心。我们提出通过直接使用特征空间作为辅助的真实来源来改进DS的稳定性。NOTELA通过鼓励特征空间中附近点的相似伪标签来实现这一点,灵感来自NRC的方法和拉普拉斯正则化。这种简单的方法在音频和视觉任务中始终显著优于源模型。

NOTELA的工作原理。音频录音通过完整的模型转发,以获得第一组预测结果,然后通过拉普拉斯正则化进行细化,即基于聚类附近点的一种后处理形式。最后,细化的预测结果被用作嘈杂模型进行重构的目标。

结论

标准的人工图像分类基准不经意地限制了我们对SFDA方法的真正泛化能力和鲁棒性的理解。我们主张扩大范围,并采用一种新的评估框架,该框架包括来自生物声学的自然分布偏移。我们还希望NOTELA作为一个稳健的基准,促进该方向的研究。NOTELA的强大性能或许指向两个因素,可以导致开发更具泛化能力的模型:首先,着眼于更难的问题的方法;其次,偏爱简单的建模原则。然而,在解决更难的问题上,仍然有待进一步的研究和理解现有方法的失败模式。我们相信,我们的研究代表了朝着这个方向迈出的一大步,为设计具有更大泛化能力的SFDA方法奠定了基础。

致谢

本文作者之一Eleni Triantafillou现在在Google DeepMind工作。我们代表NOTELA论文的作者发布这篇博客文章:Malik Boudiaf, Tom Denton, Bart van Merriënboer, Vincent Dumoulin*,Eleni Triantafillou*(*表示相等的贡献)。我们感谢我们的合著者在这篇论文上的辛勤工作,以及Perch团队的支持和反馈。


1请注意,在这个音频剪辑中,鸟鸣声非常微弱;这是声景记录中常见的特点,其中鸟鸣不在“前景”。 ↩︎