“人类草图对于目标检测有什么作用?基于草图的图像检索的洞察”
Role of human sketches in object detection and insights into sketch-based image retrieval
自史前时代以来,人类一直使用素描来传达和记录思想。即使在语言存在的情况下,它们仍然无与伦比地具有表现力。想象一下当你感到需要借助钢笔和纸张(或Zoom白板)来勾勒出一个想法时的时刻。
在过去的十年中,关于素描的研究取得了显著的增长。各种研究涵盖了各个方面,包括传统任务如分类和合成,以及更具素描特点的主题,如视觉抽象建模、风格转移和连续笔画拟合。此外,还出现了有趣和实用的应用,例如将素描转换为照片分类器。
然而,对素描表现力的探索主要集中在素描图像检索(SBIR)上,尤其是细粒度变种(FGSBIR)。例如,假设你在你的收藏中寻找特定狗的图片,将其形象在脑海中勾勒出来可以帮助你更快地找到它。
- 欧盟AI法案:AI未来的一个有希望的步骤还是一个冒险的赌注?
- Meta’s Llama 2 挑战 OpenAI 的 ChatGPT:AI 发展的新时代
- 斯坦福大学的研究人员开发了一种名为“RoentGen”的人工智能(AI)模型,该模型基于稳定扩散,并在大型胸部X射线和放射学数据集上进行了微调
已经取得了显著的进展,最近的系统已经达到了适合商业使用的成熟水平。
在本文报告的研究论文中,作者们探索了人类素描增强基础视觉任务的潜力,重点关注物体检测。下图展示了所提出方法的概述。
目标是开发一种基于素描内容检测物体的素描增强型物体检测框架,允许用户进行视觉表达。例如,当一个人勾勒出一个场景,比如“斑马吃草”,所提出的框架应该能够在斑马群中检测到那只特定的斑马,利用实例感知检测。此外,它还将允许用户对物体的部分进行具体说明,实现部分感知检测。因此,如果有人只想关注“斑马”的“头部”,他们可以勾勒出斑马的头部来实现这个期望的结果。
研究人员并没有从头开始开发一个素描增强型物体检测模型,而是展示了基础模型(如CLIP)与现成的SBIR模型之间的无缝集成,优雅地解决了这个问题。该方法利用了CLIP的模型泛化能力和SBIR的优势,弥合了素描和照片之间的差距。
为了实现这一目标,作者们对CLIP进行了适应,通过单独训练每个模态的独立提示向量,创建了素描和照片编码器(共享SBIR模型内的分支)。在训练过程中,这些提示向量被添加到CLIP的ViT骨干网的第一个Transformer层的输入序列中,而其他参数保持冻结。这种集成引入了模型对学习的素描和照片分布的泛化能力。
下面报告了特定于交叉类别FG-SBIR的检索任务的一些结果。
这是一种基于素描图像检索的新型人工智能技术的摘要。如果您感兴趣并想了解更多关于这项工作的信息,可以通过点击下面的链接找到进一步的信息。