这篇人工智能论文提出了MATLABER:一种新颖的潜在BRDF自编码器,用于材质感知的文本到3D生成

This paper proposes MATLABER a novel potential BRDF autoencoder for text-to-3D generation with material perception.

3D资产的开发对于许多商业应用非常重要,包括游戏、电影和AR/VR。传统的3D资产开发过程需要许多耗时且劳动密集的步骤,所有这些步骤都依赖于专业知识和形式美学培训。最近在生成质量和效率方面取得的进展,以及它们在显著减少传统3D资产创建的时间和技能要求方面的潜力,引起了对从纯文本描述自动生成3D资产的文本转3D流程的越来越关注。

这些文本转3D流程可以通过逐渐优化以NeRF或DMTET表示的目标3D资产来提供引人入胜的几何和外观,通过SDS损失。图1说明了它们恢复高保真物体材料的困难程度,这严重限制了它们在重新照明等实际应用中的使用。尽管在设计中尝试对双向反射分布函数(BRDF)和兰伯特反射进行建模,但负责预测材料的神经网络缺乏识别符合自然分布的适当材料所需的动机和线索,特别是在固定光照条件下,其中他们指示的材料经常与环境光混淆。

在这项研究中,上海人工智能实验室和南洋理工大学的S-Lab的研究人员使用已经可用的丰富材料数据学习了一种独特的文本转3D流程,成功地将材料与环境光分离。尽管缺乏材料和文本描述耦合数据集,但有大规模的BRDF材料数据集,如MERL BRDF、Adobe Substance3D材料和实际世界的BRDF集合TwoShotBRDF。因此,他们提出了基于潜在BRDF自动编码器的材料感知文本转3D(MATLABER)方法,该方法使用全新的潜在BRDF自动编码器创建与文本提示精确匹配的逼真自然的材料。

为了使MATLABER预测BRDF潜在代码而不是BRDF值,潜在BRDF自动编码器在其平滑潜在空间中结合了TwoShotBRDF的真实世界BRDF先验知识。这使得MATLABER能够更加专注于选择最合适的材料,并更少关注所预测的BRDF的有效性。他们的方法通过BRDF自动编码器的平滑潜在空间,确保了物体材料的逼真性和一致性,并实现了几何和外观的最佳解耦。他们的方法可以生成具有高保真内容的3D资产,超过了先前的文本转3D流程的最新技术,如图1所示。

图1:文本转3D生成的目标是创建与提供的文本描述相对应的高质量3D物体。尽管具有引人注目的视觉效果,但像DreamFusion和Fantasia3D这样的典型技术在恢复高保真物体材料方面仍然存在不足。具体而言,Fantasia3D预测的BRDF材料与环境光混淆,而DreamFusion仅考虑漫反射材料。基于潜在BRDF自动编码器的方法可以为3D物体生成有机材料,实现在各种光照条件下的逼真渲染。

更重要的是,准确估计物体材料使得先前难以进行的场景修改、材料编辑和重新照明等活动成为可能。几个实际的应用程序注意到这些下游任务的重要性,为3D内容生成的更实用范例打开了大门。此外,他们的算法可以从获取的材料中推断触觉和声音信息,这些信息共同构成了虚拟物品的材料三位一体,通过使用多模态数据集如ObjectFolder。