“遇见PhysObjects:一个基于物体的数据集,包含36.9K个众包和417K个自动化的常见家用物品的物理概念标注”
PhysObjects a dataset with 36.9K crowdsourced and 417K automated annotations for common household objects' physical concepts.
在现实世界中,信息通常通过文本、图片或视频的组合来传达。为了有效地理解和与这些信息互动,人工智能系统必须能够处理两种模态。视觉语言模型弥合了自然语言理解和计算机视觉之间的差距,从而实现更全面的世界理解。
这些模型可以生成丰富和与上下文相关的描述、故事或解释,包含文本和视觉元素。这对于创建各种目的的内容非常有价值,包括营销、娱乐和教育。
视觉语言模型的主要任务包括视觉问答和图像描述。在视觉问答中,AI模型被呈现一张图像和一个关于该图像的基于文本的问题。模型首先使用计算机视觉技术理解图像的内容,并使用自然语言处理处理文本问题。答案应该理想地反映图像的内容,并回答问题中提出的具体查询。而图像描述则涉及自动生成描述性的文本标题或句子,解释图像的内容。
- 如何为任何团队规模建立数据科学战略
- Amazon SageMaker VPC Only模式支持使用自动关闭生命周期配置的SageMaker Studio和使用Terraform的SageMaker Canvas
- TII的Falcon 180B基础模型现在可以通过Amazon SageMaker JumpStart获得
当前的视觉语言模型在捕捉常见物体的物理概念(如材料类型和易碎性)方面需要改进。这使得涉及物体的物理推理的机器人识别任务变得极其困难。为了解决这个问题,斯坦福大学、普林斯顿大学和谷歌Deep Mind的研究人员提出了“PhysObjects”。它是一个以对象为中心的数据集,包含36.9K个众包和417K个自动化的常见家庭物体的物理概念注释。众包注释使用分布式个体群体收集和标记大量数据。
研究人员证明,对PhysObjects进行微调的视觉语言模型可以显著提高物理推理能力。他们的基于物理的视觉语言模型在保留数据集示例上实现了改进的预测准确性。他们将这个基于物理的视觉语言模型与基于LLM的机器人规划器结合起来,以测试其优势,其中LLM向VLM查询其场景中物体的物理概念。
研究人员使用EgoObjects数据集作为他们的图像来源。当他们构建PhysObjects时,这是一个公开发布的最大的以对象为中心的真实物体数据集。由于该数据集包含真实家庭布置的视频,因此与家庭机器人的训练相关。平均而言,它包括117,424张图像,225,466个对象和4,203个对象实例ID。
他们的研究结果表明,与不使用基于物理的视觉语言模型的基准相比,模型在需要物理推理的任务的规划性能方面有所提高。他们未来的工作涉及扩展到物理推理以外的领域,例如几何推理或社会推理。他们的方法和数据集是在机器人技术中使用视觉语言模型进行更复杂推理的第一步。