康奈尔大学和特拉维夫大学的研究人员介绍了“Doppelgangers 学习区分相似结构的图像”
Researchers from Cornell University and Tel Aviv University introduced Doppelgangers Learning to Distinguish Similar Structured Images.
请看上面的图片。你能分辨出区别吗?就像区分双胞胎一样。也许其中一个的头发略短一些?还是说他是这样的?在计算机视觉系统领域中,类似的问题也会出现。这项研究专注于几何视觉任务,如3D重建,其中这些方法经常面临一个挑战,即区分两幅图像是在描绘现实世界中相同的3D表面还是两个相似但不同的3D表面。在这方面做出错误判断可能导致错误的3D模型。这个任务被称为“视觉消歧”。
康奈尔大学的研究人员提出的解决方案是创建一个名为“Doppelgangers”的新数据集,该数据集包含一对图像,其中一对图像代表相同的表面(正例),另一对图像代表两个不同但外观相似的表面(负例)。构建Doppelgangers数据集是一项具有挑战性的任务,因为即使是人类也可能难以区分相同和相似的图像。该方法利用维基共享资源图像数据库中的现有图像注释自动生成了一组大量标记的图像对。
我们可以总结上面图片的贡献如下:
- 顶级的GPT和AI内容检测器
- 谷歌AI推出了一个新的TensorFlow模拟框架,可以利用TPU计算流体流动
- 机器人如何做出更好的决策?MIT和斯坦福研究人员推出了Diffusion-CCSP,用于先进的机器人推理和规划
(a)当给出一对图像、关键点和匹配时,通过应用特征匹配方法提取关键点和匹配。需要强调的是,在这种特定情况下,图像表示一个负例对(Doppelganger),展示凯旋门的两侧。值得注意的是,特征匹配主要集中在结构的上部,具有重复元素的特征,与下部的雕塑特征形成对比。
(b)随后创建关键点和匹配的二进制掩码。在此之后,图像对和掩码都经过仿射变换对齐,该变换是基于识别的匹配确定的。
(c)在这种情况下使用的分类器将图像和二进制掩码的连接作为输入,并产生一个输出概率。这个概率表示给定的图像对是否构成正匹配的可能性。
然而,观察到直接在这些原始图像对上训练深度网络模型的结果不尽如人意。为了解决这个问题,设计了一个专门的网络架构。该网络利用局部特征和2D对应的宝贵信息来增强视觉消歧任务的性能。
在使用Doppelgangers测试集进行评估时,这种提出的方法在处理复杂的消歧任务方面表现出令人印象深刻的性能。它比基准方法和替代网络设计的表现都要好得多。此外,该研究还探讨了学习到的分类器在结构从动管线(如COLMAP)中作为简单的预处理过滤器在场景图计算中的实用性。
总的来说,这些发现突显了这种方法在改善与3D重建和视觉消歧相关的计算机视觉系统的可靠性和精度方面的潜力。这项研究为计算机视觉领域提供了宝贵的见解和工具,在需要准确的表面识别和重建的现实场景中有着有希望的应用。