“Objaverse-XL见面了:一个包含超过1000万个三维物体的开放数据集”
Objaverse-XL an open dataset with over 10 million 3D objects
近年来,人工智能领域取得的一项重大突破是规模在推动各个领域的进步。大型模型在语言理解、生成、表示学习、多模态任务和图像生成等方面展示了卓越的能力。随着可学习参数的增加,现代神经网络需要大量的数据。因此,这些模型所展示的能力得到了显著的提升。
一个例子是GPT-2,几年前它通过消耗大约300亿个语言标记打破了数据壁垒。GPT-2在NLP基准测试中展示出了有希望的零样本结果。然而,像Chinchilla和LLaMA这样的新模型通过消耗数万亿个网络抓取的标记超过了GPT-2。它们在基准测试和能力方面轻松超越了GPT-2。在计算机视觉领域,ImageNet最初包含100万张图像,并且是表示学习的黄金标准。但是随着数据集通过网络爬取扩大到数十亿张图像,像LAION5B这样的数据集产生了强大的视觉表示,就像CLIP模型所展示的那样。从手动组装数据集到通过网络从多种来源收集数据集的转变是从数百万到数十亿数据点的关键。
虽然语言和图像数据已经显著扩大,但其他领域,如3D计算机视觉,仍需要赶上。诸如3D对象生成和重建之类的任务依赖于小型手工制作的数据集。例如,ShapeNet依赖于专业的3D设计师使用昂贵的软件来创建资产,使得众包和扩展过程具有挑战性。数据的稀缺性已经成为3D计算机视觉中基于学习的方法的瓶颈。3D对象生成仍然远远落后于2D图像生成,通常依赖于在大规模2D数据集上训练的模型,而不是从头开始在3D数据上训练。对增强现实(AR)和虚拟现实(VR)技术的不断增长的需求和兴趣进一步突显了对3D数据扩展的迫切需求。
为了解决这些限制,来自艾伦人工智能研究所、华盛顿大学西雅图分校、哥伦比亚大学、稳定AI、加州理工学院和LAION的研究人员推出了Objaverse-XL,这是一个大规模的网络抓取的3D资源数据集。快速发展的3D创作工具以及通过Github、Sketchfab、Thingiverse、Polycam等平台以及史密森尼学会等专门网站在互联网上提供的3D数据的增加,为Objaverse-XL的创建做出了贡献。与以前的努力(如Objaverse 1.0和ShapeNet)相比,该数据集提供了更广泛的3D数据种类和质量。Objaverse-XL拥有超过1000万个3D对象,比以前的数据集大几个数量级。
Objaverse-XL提供的规模和多样性极大地扩展了最先进的3D模型的性能。值得注意的是,使用Objaverse-XL进行预训练的Zero123-XL模型在挑战性和复杂的模态上展示出了卓越的零样本泛化能力。它在诸如新视角合成等任务上表现出色,即使输入包括逼真的资产、卡通、绘画和素描等多样化内容。类似地,当使用Objaverse-XL进行训练时,从一小组图像中合成新视角的PixelNeRF模型也显示出了显著的改进。从一千个资产到1000万个资产的预训练数据的规模扩展始终展示出了改进,突显了网络规模数据带来的希望和机遇。
Objaverse-XL的影响超出了3D模型的领域。它的潜在应用范围涵盖了计算机视觉、图形学、增强现实和生成AI。从图像中重建3D对象在计算机视觉和图形学中一直是一个具有挑战性的问题。现有方法已经探索了各种表示形式、网络架构和可微分渲染技术,以从图像中预测3D形状和纹理。然而,这些方法主要依赖于像ShapeNet这样的小规模数据集。通过Objaverse-XL这个规模更大的数据集,可以实现更高水平的性能和零样本泛化。
此外,3D生成AI的出现是一个令人兴奋的发展。像MCC、DreamFusion和Magic3D这样的模型表明,借助文本到图像模型,可以从语言提示中生成3D形状。Objaverse-XL还为文本到3D生成提供了机会,推动了文本到3D建模的进步。通过利用庞大而多样的数据集,研究人员可以探索新的应用,并推动3D领域生成AI的边界。
Objaverse-XL的发布标志着3D数据集领域的一个重要里程碑。其规模、多样性和大规模训练的潜力为3D理解的研究和应用带来了希望。尽管Objaverse-XL目前比十亿级图像文本数据集要小,但其引入为进一步探索如何继续扩展3D数据集并简化3D内容的捕捉和创建铺平了道路。未来的工作还可以集中在选择用于训练的最佳数据点,并将Objaverse-XL扩展到有益于3D分割和检测等判别任务。
总之,作为一个大规模3D数据集的引入,Objaverse-XL为计算机视觉、图形学、增强现实和生成AI领域开启了令人兴奋的新可能性。通过解决以前数据集的局限性,Objaverse-XL为大规模训练提供了基础,并为在3D领域进行突破性的研究和应用开辟了途径。