数字文艺复兴:NVIDIA Neuralangelo 研究重建 3D 场景
Neuralangelo是NVIDIA Research推出的一种新型人工智能模型,采用神经网络进行三维重建,将二维视频剪辑转化为详细的三维结构,生成逼真的建筑、雕塑和其他真实世界物体的虚拟复制品。
就像米开朗基罗从大理石块中雕刻出惊人的逼真景象一样,Neuralangelo可以生成带有复杂细节和纹理的三维结构。创意专业人士可以将这些三维对象导入设计应用程序,进一步编辑它们,用于艺术、视频游戏开发、机器人和工业数字双胞胎。
Neuralangelo的能力,将复杂材料(包括屋顶瓦片、玻璃窗和光滑的大理石)的纹理从二维视频转化为三维资产,显著超越了以往的方法。高保真度使得其三维重建更易于开发人员和创意专业人士使用智能手机拍摄的镜头快速创建可用虚拟对象。
“Neuralangelo提供的三维重建能力将对创作者产生巨大的益处,帮助他们在数字世界中重现真实世界,”研究高级总监和论文合著者刘明宇说,“这个工具将最终使开发人员能够将详细的对象(无论是小雕像还是大型建筑物)导入到虚拟环境中,用于视频游戏或工业数字双胞胎。”
- 养鱼初创公司投入人工智能以使水产养殖更高效和可持续
- 小猪AI新闻,5月17日:Mojo Lang:新编程语言 • Pandas AI:生成式AI Python库
- 免费聊天GPT课程:使用OpenAI API编写5个项目
在演示中,NVIDIA研究人员展示了该模型如何重建像米开朗基罗的大卫像和一辆平板卡车这样的物体。Neuralangelo还可以重建建筑内外部——演示了NVIDIA湾区园区的公园的详细三维模型。
神经渲染模型可以看到三维
以前用于重建三维场景的人工智能模型难以准确地捕捉重复的纹理图案、同质的颜色和强烈的色彩变化。Neuralangelo采用即时神经图形原语,这是NVIDIA Instant NeRF背后的技术,以帮助捕捉这些更细的细节。
使用从各个角度拍摄的一个物体或场景的二维视频,该模型选择几个捕捉不同视角的帧——就像艺术家从多个角度考虑一个主题以获得深度、大小和形状一样。
一旦确定了每个帧的摄像机位置,Neuralangelo的人工智能就会创建一个粗略的场景三维表示,就像一位雕塑家开始凿刻主体的形状。
然后模型优化渲染以增强细节,就像雕塑家费力地雕刻石头以模仿织物或人物的纹理。
最终结果是一个可以用于虚拟现实应用程序、数字双胞胎或机器人开发的三维对象或大规模场景。
在CVPR展会上了解NVIDIA研究,6月18日至22日
Neuralangelo是NVIDIA Research推出的近30个项目之一,将在6月18日至22日在温哥华举行的计算机视觉和模式识别会议(CVPR)上展示。这些论文涵盖的主题包括姿态估计、三维重建和视频生成。
其中一个项目DiffCollage是一种扩散方法,可以创建大规模的内容,包括长的横向景观、360度全景和循环运动图像。当提供具有标准长宽比的图像训练数据集时,DiffCollage将这些较小的图像视为更大的视觉部分——就像拼贴的碎片一样。这使得扩散模型能够生成具有连贯外观的大型内容,而不需要在相同比例的图像上进行训练。
该技术还可以将文本提示转换为视频序列,使用预先训练的扩散模型捕捉人类动作进行演示:
了解更多关于NVIDIA Research在CVPR上的信息。