从文本到有形:3D-LLM将语言模型释放到3D世界中
3D-LLM将语言模型释放到3D世界中
第一个3D-LLM的概述
最初发表在louisbouchard.ai上,在我的博客上提前2天看到!
观看视频
我们已经见过大型语言模型,见过它们处理文本、代码、图像,但它们缺少的是在我们的世界中工作。我的意思是它们能够按照我们的视角理解我们的世界,而不仅仅是通过文本和图像,这只是我们描述世界的两种特定方式。今天,我们通过3D-LLM迈出了一大步。

3D-LLM是一种新的模型,您可以与之互动,它能够理解我们的世界。嗯,至少是其中的一部分,因为它只能理解三个维度和文本,这还不是全部,但它是我们生活中非常重要的一部分。正如您在上面和下面的示例中所看到的,您可以向它提出与环境相关的任何问题,它将以非常好的常识推理回答您,这是通常的LLM所没有的。当然,它并不完美,但从ChatGPT的经验来看,它是令人印象深刻的。它不仅能看到世界并回答问题,还可以与它所看到的世界进行互动,或者要求它找到通往特定房间或物体的路径。您可以询问特定的物体,指向物品等等。据我所知,这是第一个真正与我们生活的世界进行互动的LLM,非常酷。

正如您所看到的,它所看到的世界相当丑陋。这是因为该模型只能理解点云和语言。点云是表示对象或环境的空间坐标的3D数据点的集合。在3D场景的人工智能中,点云被用作高效的数据表示方式。它在自动驾驶、机器人技术或增强现实中被广泛使用,使得AI模型能够感知和与…进行交互。