训练机器更像人类学习

研究人员确定了一个属性,帮助计算机视觉模型学习以更稳定、可预测的方式表现视觉世界

Image: MIT News with iStock

想象坐在公园的长椅上,看着行人漫步而过。虽然人走路时画面不断变化,但人类的大脑可以将动态的视觉信息转化为更稳定的表示,以便预测行人的轨迹。这种被称为感知直线化的能力,帮助我们预测行人的移动轨迹。

与人类不同,计算机视觉模型通常不表现出感知直线性,因此它们学习以高度不可预测的方式表示视觉信息。但如果机器学习模型具备这种能力,就可能使它们更好地估计物体或人的移动方式。

麻省理工学院的研究人员发现,一种特定的训练方法可以帮助计算机视觉模型学习更具感知直线性的表示,就像人类那样。训练包括向机器学习模型展示数百万个示例,以便它可以学习一个任务。

研究人员发现,使用一种称为对抗性训练的技术训练计算机视觉模型,可以使它们对添加到图像中的微小错误反应更少,从而提高模型的感知直线性。

该团队还发现,感知直线性受到训练模型执行的任务的影响。训练执行抽象任务(如分类图像)的模型比训练执行更精细任务(如将图像中的每个像素分配到一个类别)的模型学习更具感知直线性的表示。

例如,模型内部的节点具有表示“狗”的内部激活,使模型能够在看到任何一张狗的图片时检测出狗。感知直线性表示在图像发生微小变化时保留更稳定的“狗”表示。这使它们更加健壮。

通过更好地了解计算机视觉中的感知直线性,研究人员希望发现能帮助他们开发更准确预测的模型的洞见。例如,这种属性可能改善使用计算机视觉模型来预测行人、骑车人和其他车辆轨迹的自动驾驶汽车的安全性。

“这里的一个主要信息是,从生物系统(如人类视觉)中汲取灵感,既可以让您了解为什么某些事物以某种方式工作,也可以激发想法,以改进神经网络,”麻省理工学院博士后和探索计算机视觉中感知直线性的论文的共同作者Vasha DuTell说。

此论文的作者还包括首席作者Anne Harrington(电气工程和计算机科学系的研究生)、博士后Ayush Tewari、研究生Mark Hamilton、Woven Planet的研究经理Simon Stent、大脑和认知科学系的主要研究科学家、计算机科学与人工智能实验室(CSAIL)成员Ruth Rosenholtz,以及高级作者William T. Freeman,电气工程和计算机科学系的Thomas和Gerd Perkins教授,以及CSAIL的成员。研究成果将在国际学习表征会议上呈现。

研究直线化

在阅读了一篇来自纽约大学研究人员的2019年论文,其中讨论了人类感知直线性之后,DuTell、Harrington和他们的同事们想知道这种属性是否也适用于计算机视觉模型。

他们着手确定不同类型的计算机视觉模型是否会将它们学习到的视觉表示直线化。他们向每个模型提供视频帧,然后检查其学习过程中不同阶段的表示。

如果该模型的表示在视频的各个帧中以可预测的方式变化,则该模型是被直线化的。最终,其输出表示应比输入表示更稳定。

“您可以将表示想象成一条线,起初非常弯曲。可以将该直线模型从视频中提取出来并通过其处理步骤将其拉直,”DuTell解释道。

他们测试的大多数模型都没有直线化。其中少数直线化效果最好的模型是使用对抗性训练训练分类任务的模型。

对抗性训练涉及通过微调每个像素来微调图像。虽然人类不会注意到这种差异,但这些微小的变化可以欺骗机器,使其对图像进行错误分类。对抗性训练使模型更加健壮,因此它不会被这些操纵欺骗。

由于对抗性训练教会模型对图像中的微小变化反应更少,这有助于它学习一个随时间更可预测的表示,Harrington解释道。

“人们已经有了这个想法,即对抗性训练可以帮助你让你的模型更像人类,有趣的是看到它可以延伸到人们之前没有测试过的另一个属性,”她说。

但研究人员发现,只有在广泛的任务,如将整个图像分类为类别时,经过对抗训练的模型才会学习到直线化。即使是经过对抗训练的模型,在标记图像中的每个像素为某个类别的分割任务时也不会直线化。

分类一致性

研究人员通过向这些图像分类模型展示视频来测试它们。他们发现,学习了更具感知直线表示的模型倾向于更一致地正确分类视频中的对象。

“对我来说,令人惊奇的是,这些经过对抗训练的模型,它们甚至从未看过视频,也从未接受过时间数据的训练,仍然显示出某种程度的直线化,”DuTell说。

研究人员不知道对抗训练过程中到底是什么使计算机视觉模型直线化,但他们的结果表明,更强的训练方案会使模型更直线化,她解释道。

基于这项工作,研究人员希望利用他们所学到的内容创建新的训练方案,明确地给模型赋予这个属性。他们还想深入研究对抗训练,以了解为什么这个过程有助于模型直线化。

“从生物学的角度来看,对抗训练并不一定有意义。这不是人类理解世界的方式。关于为什么这个训练过程似乎有助于模型更像人类,仍然有很多问题,”Harrington说。

“了解深度神经网络所学习的表示对于改进鲁棒性和泛化等性质至关重要,” Dana-Farber癌症研究所和哈佛医学院助理教授Bill Lotter说,“Harrington等人在处理自然视频时对计算机视觉模型的表示如何随时间变化进行了广泛评估,结果显示这些轨迹的曲率因模型架构、训练属性和任务而异。这些发现可以为改进模型提供信息,也可以为视觉处理的生物学提供洞见。”

“论文证实,直线化自然视频是人类视觉系统显示的一个相当独特的属性。只有经过对抗训练的网络才会显示出这种属性,这与人类感知的另一个特征——对各种图像变换的鲁棒性——有着有趣的联系,无论是自然的还是人为的,”DeepMind的研究科学家Olivier Hénaff说,“即使是经过对抗训练的场景分割模型也不会使其输入直线化,这对于未来的工作提出了重要问题:人类是否以与计算机视觉模型相同的方式解析自然场景?如何在保持对其空间细节敏感的同时表示和预测运动中的物体轨迹?通过将直线化假设与视觉行为的其他方面联系起来,该论文为更统一的感知理论奠定了基础。”

该研究部分由丰田研究院、MIT CSAIL METEOR Fellowship、美国国家科学基金会、美国空军研究实验室和美国空军人工智能加速器资助。