加州大学伯克利分校研究人员提出CRATE:一种用于深度学习中高效数据压缩和稀疏化的新型白盒变换器
加州大学伯克利分校研究人员打造创新白盒变换器CRATE:高效数据压缩与稀疏化在深度学习中的崭新应用


近年来,深度学习在处理和建模大量高维和多模态数据方面的实际成功取得了指数级的增长。在这一成就中,深度网络发现数据中可压缩的低维结构的能力以及随后将这些发现转化为经济的、即紧凑且有结构的表征的能力起到了很大的作用。这样的表征使后续的许多任务,包括涉及视觉、分类、识别和分割以及生成的任务,变得更容易。
为了学习有组织和简洁的表征,加州大学伯克利分校、芝加哥丰田工业技术研究所、上海科技大学、约翰·霍普金斯大学、伊利诺伊大学和香港大学的研究人员提出了一个单一的目标:一种原则性的好度量。在他们的工作中,研究人员认为表征学习最常见的目标之一是通过将数据的表征(这里是令牌集)拟合成混合高斯分布,然后由不相关子空间支撑。这种表征的好度量可以使用一种称为稀疏率减少的原则性度量来评估,该度量同时优化所学表征的内在信息增益和外在稀疏度。最大化这个度量的迭代方法可以被看作是像Transformer这样的流行深度网络设计的一种表现。具体而言,通过在这个目标的不同方面上进行交替优化,他们得到了一个Transformer块:首先,多头自注意运算符通过对特征的编码率进行近似梯度下降步骤来压缩表征,然后随后的多层感知机指定这些特征。
这使他们得到了一个深度网络设计,类似于Transformer,从数学上来说,它是一个完全的“白盒子”,即其优化目标、网络运算符和学习表征都是完全可解释的。他们将这种类型的白盒深度架构称为“crate”或“crate-transformer”,它是“coding-rate” transformer的缩写。团队还提供了严格的数学证明,这些增量映射在分布意义上是可逆的,逆运算包括相同的运算符族。因此,编码器、解码器和自编码器都可以使用几乎相同的crate设计来实现。
- 揭示隐藏的真相:揭开阿尔伯塔省人口贩卖的真相
- 斯坦福研究人员推出了BLASTNet:第一个用于基础流体动力学的大型机器学习数据集
- 请查看这个名为“游戏之子(SoG)”的新人工智能系统,它能够在各种游戏中击败人类,并学会玩新游戏
为了展示这个框架能够真正弥合理论和实践之间的差距,研究人员对图像和文本数据进行了广泛的实验,评估了crate模型在各种学习任务和设置上的实际性能,这些任务和设置已经得到了传统Transformer,如ViT、MAE、DINO、BERT和GPT2的强大性能的证明。令人惊讶的是,crate在所有任务和设置上都表现出与其黑盒子对应物相当的性能,包括通过监督学习进行图像分类、无监督的图像和语言数据的遮蔽完成,以及图像数据的自监督特征学习。此外,crate模型还具有许多有用的特性。它通过轻松将一个对象与其背景分割并将其划分为共享部分来展示语义含义。每个层和网络运算符都具有统计和几何含义。他们相信,所提出的计算范式在连接深度学习理论和实践方面显示出巨大的潜力,这些理论和实践从数据压缩的统一视角出发。
团队强调,由于资源有限,他们并不追求在上述所有任务中的最先进性能,这需要大量工程或相当大的微调,他们也不能在目前的工业规模下构建和测试模型。他们为这些琐碎的问题开发的解决方案通常是通用的,缺乏任务特定的灵活性。然而,他们认为这些研究已经证明,从这些数据构建的白盒深度网络crate模型具有普遍的有效性,并为未来的工程研究和发展提供了坚实的基础。
在大规模的现实世界(图像或文本)数据集和任务(判别和生成),在监督、非监督和自监督的情况下,这些网络显示出与经验丰富的Transformer相当的性能,尽管它可能是所有可用架构中最简单的。他们相信这项工作提供了一个新的视角,可以揭示像Transformer这样的深度网络所具备的完全潜力。



