3D建模借助人工智能

3D建模与人工智能

来源:Andrij Borys Associates, Shutterstock.AI

图形渲染一直以来都围绕着一个基本前提:更快的性能等于更好的体验。当然,用于渲染视频游戏、增强现实和虚拟现实中使用的复杂三维(3D)图像的图形处理单元(GPU)在达到硬件极限之前只能推动视觉性能到一定程度。此外,随着摩尔定律成为历史,进一步改进的可能性也在减少。

所有这些都导致研究人员走上了人工智能的道路,包括使用神经网络来提高3D图形的速度和质量。例如,2022年,Nvidia推出了DLSS 3(Deep Learning Super Sampling),这是一个能够将渲染速度提高多达530%的神经图形引擎。该技术使用机器学习来预测可以使用GPU实时创建的像素。

这些最佳猜测或幻觉彻底改变了3D渲染。Nvidia的应用深度学习研究副总裁Bryan Catanzaro说:“几十年来,我们一直在投资于能够更准确地模拟对象、光线以及它们在实时中的相互作用的算法。” “AI创造了从图形渲染过程中识别信号之间的相关性的机会,”可以减少消耗资源和影响速度的计算密集型工作。

依靠AI来预测像素的创建从根本上改变了计算机图形。除了Nvidia之外,Intel和AMD也推出了使用类似技巧以更快地渲染图形的3D建模框架,通常不会出现明显的图像质量下降。然而,所有这些可能只是一个开始。不久的将来,这个新兴领域还可能通过将Open Al的Dall-E 2和Google的MiP-NeRF框架等生成性AI工具与DLSS等技术相结合,孵化出新形式的图形。

“AI在猜测缺失像素方面比我们多年前使用的手工模型更好,”亚马逊应用科学主任兼澳大利亚阿德莱德大学增强推理中心主任Anton van den Hengel说道。“我们正在进入一个更高级的3D建模时代。”

返回顶部

玩转各个角度

逼真是3D建模的终极目标。在20世纪90年代,研究人员开始揭开3D图形的秘密,随后的几十年,特别是在GPU出现后,视频游戏和其他图形密集型应用得到了显著发展。然而,这些系统仍然面临一个基本的物理问题:实时生成图形(主要是几何学的运算)对GPU需求很高,而粗暴地解决问题只能稍微加快速度。

随着涉及数十个或数百个可能对象和角度的复杂模型的出现,或者计算发生在云端时,挑战成倍增长。例如,显示一群蝴蝶或人类头发并不是一项简单的任务;当合成对象出现在不断变化的背景上时,问题变得更加困难。“逼真的图像需要对光传输的物理学和图像创建方式的数学有深入的理解,”Google的高级研究员Jon Barron说道。“你可以使用的基于硬件的技术是有限的。”

当增强现实、虚拟现实和新兴的元宇宙进入画面时,情况变得更加复杂。“尽管我们一直听说增强现实和虚拟现实将改变世界并即将到来,但我们目前能够展示的东西很少,”van den Hengel说。“为了实现超逼真且有用的3D建模,需要超越硬件,加入人工智能。”

GPU的硬件进步无法解决这个问题,主要是因为工程师们已经无法找到更多的方法将晶体管集成到芯片中。与其说3D图形达到了其逻辑极限,不如说像DLSS这样的基于软件的方法正在成为提高速度并减少计算周期能源需求的关键。“AI具有填补信息空白的内在能力,”并提高计算机生成图像的质量,日本豊橋技術科学大学视觉人工智能实验室教授Shigeru Kuriyama说道。

返回顶部

AI改变了模型

大约在2010年,当研究人员发现他们可以重新利用GPU来训练深度学习模型时,3D建模和渲染场景开始发生巨大变化。Nvidia于2018年推出了DLSS的第一个版本,并通过三个迭代不断发展,成为3D图形的主导力量。没有DLSS这样的技术,快速渲染和逼真的描绘是不可能的。”即使是最强大的GPU也无法实时生成高质量的光线追踪3D模型。运行在这些模型上的游戏和应用将无法愉悦地进行”,Catanzaro说。

DLSS 3通过预测哪些实际像素可以被AI生成的像素替换,从而成功地进行实时替换。一种名为光流加速器的硬件技术比较帧并识别出变化的机会。DLSS 3是通过数十亿个样本进行训练的,最终的训练集被压缩了约1000倍,Catanzaro说。用户设备上的GPU使用机器学习模型确定可以替换的像素,并准确地渲染所需的图像。这有点像电视游戏节目”幸运轮盘”或老式的填字游戏:一个人可以看到一些字母并找到正确的单词。在3D建模中,目标是让AI模型找到尽可能多的潜在像素替换,并自动进行像素替换。

当Catanzaro和Nvidia团队对DLSS 3的性能进行深入研究时,他们发现机器学习算法在类似Portal的游戏中自动渲染了高达八分之七的像素。值得注意的是,DLSS 3使系统能够从每秒约20帧跳跃到约100帧使用3D模型。这样的速度和性能提升是显著的。”该技术突破了传统的瓶颈”,Catanzaro说。

事实上,围绕DLSS 3和类似的AI模型的数学问题有些令人难以置信。Catanzaro指出,典型图形视频流中的一帧包含大约四百万个像素。如果每秒运行100帧,GPU每秒处理的样本数量约为4亿个。成功的秘诀在于人类只需要看到每秒一百万个或更少的样本就能相信场景是真实的。训练有素的神经网络可以找出哪些像素是必要的,并以正确的方式渲染它们。”这使得模型能够在避免不可持续的不相关随机噪声的范围内发挥作用”,他说。

像DLSS这样的神经网络模型之所以如此具有吸引力,是因为它们在硬件和软件之间引入了智能集成,Kuriyama说。通过引入基于AI的、数据驱动的解决方案,用于插值、外推、超分辨率、扩展和填充空洞,这项技术正在将行业从芯片制造技术转向嵌入式AI系统,他补充说。”这就是为什么Nvidia、英特尔和AMD如此重视这个问题”,他说。

返回顶部

渲染更美好的未来

Nvidia通过DLSS 3取得了最大的视觉效果,但英特尔和AMD也在推动神经建模技术的性能边界。英特尔的XeSS(Xe超采样)框架作为一种基于AI的加速器,可以从相邻像素中重构子像素数据。它可以提供约2倍的性能提升。AMD的RDNA 3图形架构在每个计算单元中搭载了一对AI加速器。AMD声称该框架的加速效果接近2.7倍,每个CU的光线追踪增加了50%。

然而,通过深度学习加速渲染仍处于早期阶段。一个问题是DLSS 3和其他AI模型在显示某些类型的效果时存在缺陷,可能会导致抖动或闪烁效果,以及其他类型的伪影。尤其是对于具有高度细节的复杂动画图像或场景快速变化时,可能会出现扭曲。”对于学习不足的特定场景,这些系统无法以高质量的方式渲染这些图像”,Kuriyama指出。

增强现实、元宇宙和更逼真的虚拟现实进一步推动了需求。AI生成更高级别的物体细节只是挑战的一部分。还需要跨越想象的世界,将计算机生成的3D图形与实际的物理地标(如商店、咖啡店和历史遗址)相匹配。此外,Barron指出,需要改进3D建模以推进机器人技术和自动驾驶汽车。”这些设备发送和接收3D数据,因此任何可以减少计算所需数据的方法都是有价值的”。

3D神经建模也可能彻底改变生成式AI。例如,谷歌开发了一个名为MiP-NeRF 360的框架,利用人工智能生成物体的360度逼真图像。Barron和其他人正在尝试使用文本和2D扩散技术生成3D图像的扩散模型。与Open AI的Dall-E 2或谷歌的Dream Fusion等工具相结合,可以扩展3D建模能力,Catanzaro说。”这很可能是3D建模的下一个领域。”

没有人质疑神经3D渲染技术的价值。此外,额外的训练数据几乎肯定会推动各种工具和技术的未来进步。”正当摩尔定律即将终结,常规图形遇到了障碍时,人工智能出现作为一个有价值的工具,”Catanzaro总结道。”它为我们提供了推动图形向前发展的新而强大的方法,通过更加智能地进行渲染过程。

“我们正处于3D渲染领域巨大创新的关键时刻。”

更多阅读

Poole, B., Jain, A., Barron, J.T., and Mildenhall, B. DreamFusion: 使用2D扩散进行文本到3D转换。

2022年9月29日。

https://arxiv.org/abs/2209.14988

Mildenhall, B., Hedman, P., Martin-Brualla, R., Srinivasan, P., and Barron, J.T. 在黑暗中的NeRF:从噪声原始图像中合成高动态范围视图。

2021年11月26日。

https://arxiv.org/abs/2111.13679

Tewari, A., Thies, J.等 神经渲染的进展,计算机图形学论坛,2022年5月,页面703-735。

https://onlinelibrary.wiley.com/doi/abs/10.1111/cgf.14507

Dundar, A., Gao, J., Tao, A., and Catanzaro, B. 用生成模型进行3D网格的细节纹理学习。2022年3月17日。https://doi.org/10.48550/arXiv.2203.09362

返回顶部

作者

Samuel Greengard是一位驻西林恩的作家和记者,美国。

返回顶部

脚注

a. https://www.nvidia.com/en-us/geforce/news/dlss3-ai-powered-neural-graphics-innovations/

b. https://developer.nvidia.com/docs/drive/drive-os/latest/linux/sdk/common/topics/nv-media_understand/OpticalFlowAccelerator.html

c. https://www.intel.com/content/www/us/en/support/articles/000090031/graphics/intel-arc-dedicated-graphics-family.html

d. https://www.amd.com/en/technologies/rdna

e. https://jonbarron.info/mipnerf360/

f. https://dreamfusion3d.github.io/

©2023 ACM 0001-0782/23/8

未经费用授权,可以制作此作品的部分或全部数字或硬质副本,但不得为了盈利或商业优势而制作或分发副本,并且副本必须带有本通知和第一页的完整引用。必须尊重ACM以外的其他人所拥有的本作品组成部分的版权。允许带有标注的摘要。未经事先特定许可和/或费用,禁止复制、再版、在服务器上发布或分发给列表。请从[email protected]或传真(212)869-0481请求出版权限。

数字图书馆由计算机协会出版。版权所有 © 2023 ACM,Inc.。