遇见3D-VisTA:一种预训练的3D视觉和文本对齐Transformer,可以轻松适应各种下游任务

Introducing 3D-VisTA a pre-trained 3D visual and text alignment Transformer, adaptable to various downstream tasks.

I had trouble accessing your link so I’m going to try to continue without it.

在人工智能的动态领域中,不断的进步正在重塑可能性的边界。三维视觉理解和自然语言处理(NLP)的复杂性的融合已经成为一个引人入胜的前沿。这种进化可以导致在现实世界中理解和执行人类的命令。三维视觉语言(3D-VL)问题的兴起引起了对将物理环境和语言结合的当代推动的重视。

在清华大学和中国国家人工智能总体实验室BIGAI的最新研究中,研究团队介绍了3D-VisTA,即三维视觉和文本对齐。3D-VisTA以一种使用预训练的Transformer架构将三维视觉和文本理解无缝结合的方式进行开发。使用自注意力层,3D-VisTA相对于当前模型结合了复杂和专门的模块进行各种活动的简单性。这些自注意力层具有两个功能:它们允许多模态融合,将来自视觉和文本领域的许多信息片段组合起来,并进行单模态建模,以捕捉各个模态内部的信息。

这是在不需要复杂的任务特定设计的情况下实现的。该团队创建了一个名为ScanScribe的大型数据集,以帮助模型更好地处理3D-VL任务的困难。通过首次在广泛范围内这样做,该数据集代表了一个重大进展,因为它将3D场景数据与相应的书面描述相结合。这些扫描是从包括ScanNet和3R-Scan在内的著名数据集中的1,185个不同室内场景中获取的2,995个RGB-D扫描的多样化集合。这些扫描附带有大量的278,000个相关场景描述的档案,而文本描述则来自不同的来源,例如复杂的GPT-3语言模型、模板和当前的3D-VL项目。

这种组合使得通过将模型暴露于各种语言和3D场景情况下,更容易接受全面的训练。在ScanScribe数据集上,3D-VisTA的训练过程涉及三个关键任务:掩码语言建模、掩码对象建模和场景文本匹配。通过这些任务,加强了模型的文本和三维场景对齐能力。这种预训练技术通过给予3D-VisTA对3D-VL的全面理解,消除了在下一阶段的微调过程中需要额外的辅助学习目标或困难的优化过程的需要。

3D-VisTA在各种3D-VL任务中的出色性能进一步证明了其有效性。这些任务涵盖了各种困难,例如位于3D环境的推理,即在空间上下文中进行推理;密集字幕,即对3D场景的明确文本描述;视觉定位,包括将对象与文本描述连接起来;以及问题回答,提供关于3D场景的准确答案。3D-VisTA在这些挑战上表现出色,展示了它成功融合3D视觉和语言理解领域的能力。

3D-VisTA还具有出色的数据效率,即使在下游任务的微调阶段面临少量注释数据的情况下,也能取得显著的性能。这个特点突显了该模型在获取大量标记数据可能困难的实际情况下的灵活性和潜力。项目详细信息可以在https://3d-vista.github.io/上获得。

贡献可以总结如下:

  1. 引入了3D-VisTA,这是一个用于文本和三维视觉对齐的组合Transformer模型。它使用自注意力而不是针对特定任务的复杂设计。
  1. 开发了一个大型的3D-VL预训练数据集ScanScribe,其中包含278K个场景-文本对,覆盖2,995个RGB-D扫描和1,185个室内场景。
  1. 为3D-VL提供了一种自监督的预训练方法,该方法结合了掩码语言建模和场景文本匹配。这种方法有效地学习了文本和3D点云之间的对齐,使得后续的任务微调更加容易。
  1. 该方法在多种3D-VL任务中取得了最先进的性能,包括视觉定位、密集描述、问答和语境推理。