中国最新的人工智能研究推出了“OMMO”:一个用于新颖视角合成和隐式场景重建的大规模室外多模态数据集和基准
中国最新的人工智能研究推出了“OMMO”,一个用于新颖视角合成和隐式场景重建的大规模室外多模态数据集和基准
最近,隐式脑表示的最新发展使得逼真的新视角合成和高保真度表面重建成为可能。然而,目前使用的大多数方法都集中在单个项目或室内场景上,在室外情况下使用时,它们的合成性能可能会更好。当前的室外场景数据集通过渲染虚拟场景或收集少量物品的基本场景以适度的地理比例创建。缺乏标准基准和大规模的室外场景数据集使得无法评估某些相当现代的方法的性能,即使它们是为大场景设计并试图解决这个问题。
BlendedMVS和UrbanScene3D集合中包括了与真实场景在纹理和外观元素上不同的重建或虚拟场景的照片。从互联网收集图片可能会创建出像ImageNet和COCO这样非常高效的数据集。然而,由于场景中物体和照明条件的不断变化,这些技术不适用于基于NeRF的工作评估。例如,Tanks and Temples提供了由高精度工业激光扫描仪拍摄的逼真室外场景的标准。然而,它的场景规模仍然太小(平均463平方米),并且只关注单个室外物体或结构。
这是我们数据集中的一个城市场景的插图,使用圆形相机轨迹在低照明条件下拍摄。我们展示了相机轨迹、场景的文字说明和多视角校准照片。我们的数据集可以提供逼真、高保真度的纹理细节;一些特征在彩色框中进行了放大以展示。
- Salesforce AI开发了一种名为EDICT的新编辑算法,它可以通过可逆过程在现有的扩散模型中执行文本到图像的扩散生成
- UCLA研究人员提出PhyCV:一种受物理启发的计算机视觉Python库
- 2023年零售数据流媒体的现状
他们收集数据的方法类似于使用无人机录制广阔现实世界场景的Mega-NeRF。然而,Mega-NeRF只提供了两个重复的场景,无法作为普遍接受的基准。因此,为了室外环境的大规模NeRF研究能够赶上单个物品或室内场景,需要填补缺乏大规模真实室外场景数据集的空白。他们提供了一个精心选择的飞行视角多模态数据集,以解决大规模真实世界室外场景数据集的不足。如上图所示,该数据集包含33个场景,具有及时的注释、标签和14K个校准照片。与上述现有方法不同的是,他们的场景来自各种来源,包括我们从互联网和自己获取的。
除了全面和代表性,该收集指示还包括了各种场景类型、场景大小、相机轨迹、照明条件和需要包含在以前数据集中的多模态数据。他们还提供了基于该数据集的全面基准,用于评估生成的数据集对于评估标准NeRF方法的适用性和性能。更重要的是,他们提供了一种从无人机的在线视频中生成真实世界NeRF数据的通用过程,这使得社区可以扩展他们的数据集。为了对每种方法进行细粒度的评估,他们还根据不同的场景类型、场景大小、相机轨迹和照明条件包括了几个具体的子基准。
总之,他们的主要贡献如下:
• 为推动大规模NeRF研究,他们提供了一个比目前任何可比较的室外数据集更丰富和多样的多模态数据。
• 他们为流行的室外NeRF方法提供了几个基准任务,以建立一个统一的基准标准。许多测试表明,他们的数据集可以支持典型的基于NeRF的任务,并为下一步研究提供快速的注释。
• 为了使他们的数据集易于扩展,他们提供了一个低成本的流程,将可以从互联网免费下载的电影转换为 NeRF 训练数据。