为什么深度学习总是在数组数据上进行?新的人工智能研究引入了“空间函数”,将从数据到函数的处理视为一个整体
隐式神经表示(INRs)或神经场是基于坐标的神经网络,通过将3D坐标映射到3D空间中的颜色和密度值来表示场景,例如3D场景。最近,神经场在计算机视觉中引起了很大的关注,作为表示信号(如图片、3D形状/场景、电影、音乐、医学图像和天气数据)的一种手段。
最近的工作提出了一个名为functa的框架,不再使用像素等数组表示的传统方法,而是直接在这些场表示上进行深度学习。它们在许多研究领域表现良好,包括生成、推理和分类。它们涵盖了从图像到体素再到气候数据到3D场景的范围,但通常仅适用于像CelebA-HQ 64 64或ShapeNet这样的小型或简单数据集。
先前的functa工作表明,即使在相对较小的数据集上,也可以对神经场进行深度学习。然而,该方法在CIFAR-10的分类和生成任务中表现不佳。这对研究人员来说是令人震惊的,因为CIFAR-10的神经场表示非常准确,它们包含了完成下游任务所需的所有数据。
- 一个新的AI研究介绍了AttrPrompt:一种用于零样本学习新范式的LLM作为训练数据生成器
- 使用Python实现网站监控,赋予实时洞察力
- 5个初级数据科学家在Spotify学到的5个重要课程(第1部分)
DeepMind和海法大学的一项新研究提出了一种将functa的适用范围扩展到更广泛和复杂数据集的策略。他们首先展示了使用他们的方法可以复制CelebA-HQ上报告的functa结果。然后他们将其应用于CIFAR-10的下游任务,结果在分类和生成方面令人惊讶地不佳。
作为functa的扩展,空间functa将平面潜变量替换为具有空间顺序的潜变量表示。因此,每个空间索引处的特征可以收集特定于该位置的信息,而不是从所有可能的位置收集数据。这个小调整允许使用更复杂的架构来解决下游任务,例如具有位置编码的Transformer和UNet,它们的归纳偏差非常适合空间组织的数据。
这使得functa框架能够适用于ImageNet-1k的256×256分辨率等复杂数据集。研究结果还显示,空间functa解决了CIFAR-10分类/生成中的约束问题。分类结果与ViTs相当,图像生成结果与潜在扩散相当。
团队认为,在这些高维度模态中,functa框架将在规模上发挥作用,因为神经场以更高效的方式捕捉了这些模态的数组表示中存在的大量冗余信息。