Meet One-2-3-45++:一项创新的人工智能方法,可将一张图片转化为约一分钟内的详细3D纹理网格

遇见One-2-3-45++:一种创新的人工智能方法,将图像转换成详细的3D纹理网格,只需约一分钟

来自加州大学圣地亚哥分校、浙江大学、清华大学、加州大学洛杉矶分校和斯坦福大学的研究人员引入了一种名为One-2-3-45++的创新人工智能方法,用于快速和高保真度的3D物体生成。该方法利用2D扩散模型,并通过初始微调实现一致的多视图图像生成。然后使用多视角条件的3D扩散模型将这些图像转换为详细的3D带纹理网格。该技术能够在大约一分钟内合成与输入图像近似的高质量、多样化的3D资源,解决了实际应用中速度和保真度的挑战。

One-2-3-45++是一种能够在不到一分钟内从单一RGB图像生成高保真度3D物体的方法。该方法利用多视图图像,通过轻量级优化过程改进了生成网格的纹理。比较评估结果显示,One-2-3-45++在CLIP相似性和用户偏好得分方面优于基准方法。多视图图像对于3D扩散模块的效力至关重要,展示了相对于现有方法在一致的多视图生成方面的改进。

该研究解决了从单一图像或文本提示生成3D形状的挑战,这对于各种应用至关重要。由于3D训练数据的稀缺性,现有方法需要进行修订以在未知类别中推广。提出的One-2-3-45++方法通过同时预测一致的多视图图像,并利用多视图条件的基于3D扩散的模块进行高效和逼真的3D重建,克服了其前身One-2-3-45的局限性。该方法能够在不到一分钟内以精细的控制实现高质量的结果,优于基准方法。

One-2-3-45++模型经过广泛的多视图和3D配对训练,为每个阶段使用了单独的扩散网络。第一阶段利用正常的3D卷积创建完整的3D占用体积,第二阶段使用稀疏的3D卷积处理3D光环境。由多视图图像引导的轻量级改进模块增强了纹理质量。包括CLIP相似性和用户偏好得分在内的评估指标显示出该方法优于基准方法。用户研究验证了其质量,并强调相对现有方法的运行效率。

One-2-3-45++在CLIP相似性和用户偏好得分方面超越了基准方法,展示出更优秀的质量和性能。改进模块提高了纹理质量,提高了CLIP相似性得分。此外,与基于优化的方法相比,该方法在运行时间上也具有显著的优势,可提供迅速的结果。

总而言之,One-2-3-45++是一种高效的技术,能够迅速而准确地从单一图像中生成高质量的带纹理的3D网格。用户研究已验证其相对于文本到3D建模方法在质量和与输入图像的对齐方面的优势。此外,它提供了快速的结果,优于基于优化的替代方案。

未来的研究应集中于利用更大规模和更多样化的3D训练数据集,探索额外的后处理技术,优化纹理改进模块,进行广泛的用户研究,并整合其他信息类型。在虚拟现实、游戏和计算机辅助设计等各个领域应用该方法时,评估其效果和潜在影响至关重要。