“人类草图对于目标检测有什么作用?基于草图的图像检索的洞察”

Role of human sketches in object detection and insights into sketch-based image retrieval

自史前时代以来,人类一直使用素描来传达和记录思想。即使在语言存在的情况下,它们仍然无与伦比地具有表现力。想象一下当你感到需要借助钢笔和纸张(或Zoom白板)来勾勒出一个想法时的时刻。

在过去的十年中,关于素描的研究取得了显著的增长。各种研究涵盖了各个方面,包括传统任务如分类和合成,以及更具素描特点的主题,如视觉抽象建模、风格转移和连续笔画拟合。此外,还出现了有趣和实用的应用,例如将素描转换为照片分类器。

然而,对素描表现力的探索主要集中在素描图像检索(SBIR)上,尤其是细粒度变种(FGSBIR)。例如,假设你在你的收藏中寻找特定狗的图片,将其形象在脑海中勾勒出来可以帮助你更快地找到它。

已经取得了显著的进展,最近的系统已经达到了适合商业使用的成熟水平。

在本文报告的研究论文中,作者们探索了人类素描增强基础视觉任务的潜力,重点关注物体检测。下图展示了所提出方法的概述。

https://arxiv.org/abs/2303.15149

目标是开发一种基于素描内容检测物体的素描增强型物体检测框架,允许用户进行视觉表达。例如,当一个人勾勒出一个场景,比如“斑马吃草”,所提出的框架应该能够在斑马群中检测到那只特定的斑马,利用实例感知检测。此外,它还将允许用户对物体的部分进行具体说明,实现部分感知检测。因此,如果有人只想关注“斑马”的“头部”,他们可以勾勒出斑马的头部来实现这个期望的结果。

研究人员并没有从头开始开发一个素描增强型物体检测模型,而是展示了基础模型(如CLIP)与现成的SBIR模型之间的无缝集成,优雅地解决了这个问题。该方法利用了CLIP的模型泛化能力和SBIR的优势,弥合了素描和照片之间的差距。

为了实现这一目标,作者们对CLIP进行了适应,通过单独训练每个模态的独立提示向量,创建了素描和照片编码器(共享SBIR模型内的分支)。在训练过程中,这些提示向量被添加到CLIP的ViT骨干网的第一个Transformer层的输入序列中,而其他参数保持冻结。这种集成引入了模型对学习的素描和照片分布的泛化能力。

下面报告了特定于交叉类别FG-SBIR的检索任务的一些结果。

https://arxiv.org/abs/2303.15149

这是一种基于素描图像检索的新型人工智能技术的摘要。如果您感兴趣并想了解更多关于这项工作的信息,可以通过点击下面的链接找到进一步的信息。