来自萨里大学的研究人员推出了一款基于素描的机器学习物体检测工具,具有颠覆性的影响

自史前时代起,人们就用草图进行交流和文件记录。在过去的十年中,研究人员在理解如何使用草图从分类和合成到更新颖的应用,如建模视觉抽象、风格转移和连续笔画拟合方面取得了巨大进展。然而,只有基于草图的图像检索(SBIR)及其细粒度对应物(FGSBIR)研究了草图的表达潜力。最近的系统已经成熟,可商业化应用,这是开发草图表达性可能产生重大影响的绝佳证明。

草图非常生动,因为它们自动捕捉到细微和个人的视觉线索。然而,对于人类草图绘制的这些固有特质的研究一直局限于图像检索领域。科学家们首次正在训练系统利用草图的生动力量进行视觉中最基本的任务:检测场景中的对象。最终产品是一个基于草图检测对象的框架,因此可以将特定的“斑马”(例如正在吃草的斑马)锁定在斑马群中。此外,研究人员还要求该模型在以下情况下成功运行:

  • 没有事先想好预期结果的想法(零射击)。
  • 不需要额外的边界框或类标签(如完全监督)。

研究人员进一步规定,基于草图的检测器也以零射击方式运作,增加了系统的新颖性。在接下来的几个部分中,他们详细介绍了如何将对象检测从封闭集转换为开放词汇配置。例如,对象检测器使用原型学习而不是分类头,编码查询草图特征作为支持集。然后,该模型使用弱监督对象检测(WSOD)环境中所有可想象的类别或实例原型之间的多类别交叉熵损失进行训练。对象检测在图像级别上运作,而SBIR是通过单个对象的草图和照片进行训练的。因此,SBIR对象检测器训练需要在对象级别和图像级别特征之间建立桥梁。

研究人员的贡献是:

  • 培养人类草图表达对对象检测的作用。
  • 基于草图构建的对象检测器可以理解人们试图传达的内容
  • 一个对象检测器,可进行传统的类别级别和实例、部分级别的检测。
  • 一种新颖的提示学习配置,将CLIP和SBIR结合起来,产生一个可在没有边界框注释或类标签的情况下运行的草图感知检测器。
  • 在零射击设置中,结果优于SOD和WSOD。

研究人员并没有从头开始,而是展示了基础模型(如CLIP)和已经建立用于基于草图的图像检索(SBIR)的现有草图模型之间的直观协同作用,这些模型已经可以优雅地解决该任务。特别是,他们首先对SBIR模型的草图和照片分支进行单独提示,然后使用CLIP的通用性能力构建高度可通用的草图和照片编码器。为了确保检测到的框的区域嵌入与SBIR草图和照片的嵌入匹配,他们设计了一种训练范式,以调整用于项目检测的学习编码器。当在行业标准的对象检测数据集(包括PASCAL-VOC和MS-COCO)上进行测试时,该框架在零射击设置中的表现优于监督式(SOD)和弱监督式(WSOD)对象检测器。

总而言之

为了改进对象检测,研究人员积极鼓励人类在草图中的表达性。建议的草图启用对象识别框架是一个实例感知和部分感知的对象检测器,可以理解人们在草图中试图传达的内容。因此,他们设计了一种创新的提示学习设置,将CLIP和SBIR结合起来,教育一个可以在没有边界框注释或类标签的情况下运行的草图奖励检测器。检测器还被指定为能够在各种情况下以零射击方式运行。另一方面,SBIR是通过单个对象的草图和照片进行训练的。他们使用一种数据增强方法,增加抗干扰性和对词汇表外泛化的支持,以帮助弥合对象和图像级别之间的差距。结果框架在零射击环境中的表现优于监督式和弱监督式对象检测器。