深度学习用于深度对象：ZoeDepth是一个用于多领域深度估计的AI模型

ZoeDepth is an AI model for deep object depth estimation in multiple domains using deep learning.

你是否曾经遇到过一种错觉，其中图像中的孩子看起来比成年人更高更大？Ames房间错觉就是其中的一种，它涉及到一个形状像梯形的房间，其中一个房间的角比观察者更靠近，而另一个角则更远。当你从某个角度观察时，房间中的物体看起来正常，但当你移动到不同的位置时，一切都会变化大小和形状，这可能会让人难以理解什么离你近，什么离你远。

然而，这对我们人类来说是一个问题。通常，当我们观察一个场景时，如果没有错觉的干扰，我们可以相当准确地估计物体的深度。然而，计算机在深度估计方面并不那么成功，因为它仍然是计算机视觉中的一个基本问题。

深度估计是确定相机与场景中物体之间距离的过程。深度估计算法将图像或图像序列作为输入，并输出相应的深度图或场景的3D表示。这是一个重要的任务，因为在诸如机器人技术、自动驾驶车辆、虚拟现实、增强现实等众多应用中，我们需要了解场景的深度。例如，如果你想要一辆安全的自动驾驶汽车，了解前方车辆的距离对调整驾驶速度至关重要。

深度估计算法有两个分支，度量深度估计（MDE）和相对深度估计（RDE）。度量深度估计的目标是估计绝对距离，而相对深度估计的目标是估计场景中物体之间的相对距离。

MDE模型对于制图、规划、导航、物体识别、3D重建和图像编辑等方面非常有用。然而，当在多个数据集上训练单个模型时，MDE模型的性能可能会下降，特别是如果图像的深度尺度存在较大差异（例如室内和室外图像）。因此，现有的MDE模型通常会过拟合特定的数据集，并且在其他数据集上的泛化能力较差。

相反，RDE模型使用视差作为监督手段。RDE中的深度预测仅在图像帧之间相对一致，且缺乏尺度因子。这使得RDE方法能够在各种场景和数据集上进行训练，甚至包括3D电影，这有助于提高模型在不同领域的泛化能力。然而，牺牲的是RDE中的深度预测没有度量意义，这限制了其应用。

如果将这两种方法结合起来会怎样呢？我们可以得到一个深度估计模型，它可以在不同领域中具有良好的泛化能力，同时仍然保持准确的度量尺度。这正是ZoeDepth所实现的。

ZoeDepth概览。来源：https://arxiv.org/pdf/2302.12288.pdf

ZoeDepth是一个将MDE和RDE方法结合的两阶段框架。第一阶段包括一个编码器-解码器结构，用于训练估计相对深度。该模型在各种数据集上进行训练，以提高泛化能力。第二阶段添加了负责估计度量深度的组件。

这种方法中使用的度量头设计基于一种称为度量分组模块的方法，它为每个像素估计一组深度值，而不是单个深度值。这使得模型能够捕捉每个像素可能的深度范围，从而提高其准确性和稳健性。这使得模型能够准确地测量场景中物体之间的物理距离。这些头部组件是在度量深度数据集上进行训练的，并且与第一阶段相比较轻量级。

在推理方面，分类器模型使用编码器特征为每个图像选择合适的头部组件。这使得模型可以专门用于估计特定领域或场景类型的深度，同时仍然受益于相对深度的预训练。最终，我们得到了一个灵活的模型，可以在多种配置中使用。

AI Paper Summary,AI Shorts,Applications,Artificial intelligence,Deep Learning,Editors Pick,Machine learning,Staff,Tech News,Technology,Uncategorized

深度学习用于深度对象：ZoeDepth是一个用于多领域深度估计的AI模型

ZoeDepth is an AI model for deep object depth estimation in multiple domains using deep learning.

使用Plotly Express Sunburst图表探索地质数据

掌握AI艺术：中旅程与提示工程的简明指南

MLOps 思维：始终保持生产就绪状态

“对多因素认证（MFA）绕过攻击的担忧日益增加”

洪水韧性的地理空间分析

亚马逊 Vs 谷歌 Vs 微软：用人工智能革命医疗...

关于采用道德人工智能和数据科学实践的重要性...

Web开发的未来：预测和可能性

人工智能