“人类草图对于目标检测有什么作用？基于草图的图像检索的洞察”

Role of human sketches in object detection and insights into sketch-based image retrieval

自史前时代以来，人类一直使用素描来传达和记录思想。即使在语言存在的情况下，它们仍然无与伦比地具有表现力。想象一下当你感到需要借助钢笔和纸张（或Zoom白板）来勾勒出一个想法时的时刻。

在过去的十年中，关于素描的研究取得了显著的增长。各种研究涵盖了各个方面，包括传统任务如分类和合成，以及更具素描特点的主题，如视觉抽象建模、风格转移和连续笔画拟合。此外，还出现了有趣和实用的应用，例如将素描转换为照片分类器。

然而，对素描表现力的探索主要集中在素描图像检索（SBIR）上，尤其是细粒度变种（FGSBIR）。例如，假设你在你的收藏中寻找特定狗的图片，将其形象在脑海中勾勒出来可以帮助你更快地找到它。

已经取得了显著的进展，最近的系统已经达到了适合商业使用的成熟水平。

在本文报告的研究论文中，作者们探索了人类素描增强基础视觉任务的潜力，重点关注物体检测。下图展示了所提出方法的概述。

目标是开发一种基于素描内容检测物体的素描增强型物体检测框架，允许用户进行视觉表达。例如，当一个人勾勒出一个场景，比如“斑马吃草”，所提出的框架应该能够在斑马群中检测到那只特定的斑马，利用实例感知检测。此外，它还将允许用户对物体的部分进行具体说明，实现部分感知检测。因此，如果有人只想关注“斑马”的“头部”，他们可以勾勒出斑马的头部来实现这个期望的结果。

研究人员并没有从头开始开发一个素描增强型物体检测模型，而是展示了基础模型（如CLIP）与现成的SBIR模型之间的无缝集成，优雅地解决了这个问题。该方法利用了CLIP的模型泛化能力和SBIR的优势，弥合了素描和照片之间的差距。

为了实现这一目标，作者们对CLIP进行了适应，通过单独训练每个模态的独立提示向量，创建了素描和照片编码器（共享SBIR模型内的分支）。在训练过程中，这些提示向量被添加到CLIP的ViT骨干网的第一个Transformer层的输入序列中，而其他参数保持冻结。这种集成引入了模型对学习的素描和照片分布的泛化能力。

下面报告了特定于交叉类别FG-SBIR的检索任务的一些结果。

这是一种基于素描图像检索的新型人工智能技术的摘要。如果您感兴趣并想了解更多关于这项工作的信息，可以通过点击下面的链接找到进一步的信息。

AI Paper Summary,AI Shorts,Applications,Artificial intelligence,Computer vision,Editors Pick,Machine learning,Staff,Tech News,Technology,Uncategorized

“人类草图对于目标检测有什么作用？基于草图的图像检索的洞察”

Role of human sketches in object detection and insights into sketch-based image retrieval

欧盟AI法案：AI未来的一个有希望的步骤还是一个冒险的赌注？

澳大利亚团队赢得资助，将人工智能与人脑细胞合并

围绕人工智能的扩展和采用存在的5个问题

检查数据科学预测：个体+负面案例分析

2023年数据科学家必备的前十个AI Chrome扩展程序

释放生成式人工智能的潜力：VAEs、GANs和Trans...

如何获得数据科学工作？[8个简单步骤解析]

亚马逊网络服务(AWS)的艾米丽·韦伯关于预训练...

人工智能