图机器学习 @ ICML 2023

图机器学习 @ ICML 2023

图形机器学习的最新进展是什么?

美丽的海滩和热带夏威夷风景🌴并没有阻止勇敢的科学家们参加在檀香山举行的国际机器学习会议,并展示他们最新的工作!让我们来看看我们最喜欢的图形机器学习领域的最新动态。

作者提供的图片

感谢 Santiago Miret 对本文进行校对。

为了让文章不那么枯燥,我在檀香山拍了一些照片📷

目录(可点击):

  1. 图形转换器:更稀疏、更快速、有向
  2. 理论:GNN的 VC 维度,深入研究超压缩
  3. 新的 GNN 架构:延迟和半跳
  4. 生成模型-分子的稳定扩散,离散扩散
  5. 几何学习:几何 WL,克利福德代数
  6. 分子:2D-3D 预训练,MD 中的不确定性估计
  7. 材料和蛋白质:蛋白质的 CLIP,Ewald 传递信息,等变增强
  8. 酷炫的应用:算法推理,归纳型知识图谱完成,GNNs 用于质谱
  9. 结束的梗段

图形转换器:更稀疏、更快速、有向

我们大约一年前介绍了GraphGPS,很高兴看到许多 ICML 论文在我们的框架上建立并进一步扩展了 GT 的能力。

➡️ Exphormer,由 Shirzad、Velingker、Venkatachalam 等人提出,为 GT 添加了一个缺失的基于图的稀疏注意力部分:Exphormer 的注意力不是基于 BigBird 或 Performer(最初设计用于序列),而是基于 1 跳边、虚拟节点(与图中所有节点相连)以及扩展边的巧妙想法。扩展图具有恒定的度数,并且被证明可以近似完全连接的图。所有组件结合起来,注意力的成本是 O(V+E),而不是 O(V²)。这使得 Exphormer 几乎在所有地方都能胜过 GraphGPS,并且可以扩展到多达 16 万个节点的大规模图。出色的工作,有望使 Exphormer 成为 GT 中标准的稀疏注意力机制👏。

➡️ 与图形转换器同时进行的,扩展图已经可以用来增强任何 MPNN 架构的性能,正如 Deac、Lackenby 和 Veličković 所展示的那样。

同样地,蔡等人表明带有虚拟节点的 MPNN 可以近似线性 Performer-like 注意力,以至于即使是经典的 GCN 和 GatedGCN 也具有了在长距离图任务中几乎达到 SOTA 性能的能力(我们去年发布了 LGRB 基准正好用于衡量 GNN 和 GT 的长距离能力)。

来源:Shirzad, Velingker, Venkatachalam et al

➡️ 一些受视觉模型启发的图形转换器的基于补丁的子采样方法:“A Generalization of ViT/MLP-Mixer to Graphs”,由 He 等人将输入分成几个补丁,使用 GNN 对每个补丁进行编码,并在这些标记上运行变压器。

来源:“A Generalization of ViT/MLP-Mixer to Graphs” by He et al

在Kong等人的文章《GOAT》中,节点特征被投影到一个包含K个聚类的代码书中,使用K-Means算法进行聚类,并且每个节点的采样的3跳邻居会参考代码书。GOAT是一个1层模型,适用于包含数百万个节点的图。

➡️ 有向图也得到了一些Transformer的喜爱💗。Geisler等人的文章《Transformers Meet Directed Graphs》引入了磁性拉普拉斯算子——这是一个有向图的拉普拉斯算子的泛化,其邻接矩阵不对称。磁性拉普拉斯算子的特征向量配对有向随机游走是Transformer的强输入特征,使其在OGB Code2图属性预测数据集上取得了显著的SOTA成绩!

🏅 最后但并非最不重要的是,我们在社区标准的ZINC数据集上有一个新的SOTA GT — Ma、Lin等人的《GRIT》将完整的d维随机游走矩阵(称为相对随机游走概率RRWP)作为边特征用于注意力计算(相比之下,流行的RWSE特征只是该矩阵的对角元素)。RRWP比最短路径距离特征更强大,并在ZINC上取得了记录低的0.059 MAE(相比之下,GraphGPS为0.070)。GRIT在其他基准测试中也经常胜过GPS👏。同样,Eliasof等人提出了一个巧妙的想法,将随机特征和谱特征结合为位置编码,这些编码优于RWSE,但尚未尝试过GTs。

作者提供的图片

理论:GNNs的VC维度,深入研究过度压缩

➡️ VC维度衡量模型的容量和表达能力。它在经典机器学习算法中已经得到了很好的研究,但令人惊讶的是,它从未被应用于研究GNNs。在Morris等人的文章《WL meet VC》中,WL测试与VC维度之间的关系终于被揭示出来——原来VC维度可以由GNN权重的位数进行界定,即float32权重意味着VC维度为32。此外,VC维度对于给定任务中唯一的WL颜色数量以及深度和层数呈对数和多项式依赖。这是一个很好的理论结果,我鼓励您去了解一下!

来源:Morris等人的《WL meet VC》

🍊🖐️ 过度压缩效应——当您尝试从太多邻居节点中传递信息时会发生信息丢失——是MPNNs的另一个常见问题,我们尚未完全理解如何正确处理它。今年有3篇论文专门讨论了这个问题。也许最基础的是Di Giovanni等人的工作,解释了MPNNs的宽度、深度和图拓扑如何影响过度压缩。

来源:Di Giovanni等人

结果表明,宽度可能有所帮助(但存在泛化问题),深度实际上并不帮助,而图拓扑(由节点之间的通勤时间特征化)起着最重要的作用。我们可以通过各种图重连策略来减少通勤时间(根据空间或谱特性添加和删除边),而且这些策略有很多(您可能听说过基于Ricci流的重连策略,该策略在ICLR 2022上获得了最佳论文奖)。实际上,这项研究的后续工作更加深入,并推导出了一些关于过度压缩和一些MPNN属性的不可能性陈述——我强烈鼓励您也阅读一下!

➡️ 有效电阻是空间重连策略的一个例子,Black等人对其进行了详细研究。基于Ricci流的重连工作与图形曲率一起研究,在Nguyen等人的工作中进一步研究。

➡️ 子图GNN仍然备受关注:两个工作(Zhang、Feng、Du等人Zhou、Wang、Zhang)同时推导了最近提出的子图GNN的表达能力层次和它们与一阶和高阶WL测试的关系。

作者提供的图片

新的GNN架构:延迟和半跳

如果你已经厌倦了GCN或GAT的各种变体,这里有一些新的想法可以与你选择的任何GNN一起使用:

⏳ 正如我们从理论部分所知,重连有助于解决过度压缩的问题。 Gutteridge等人引入了”DRew:带有延迟的动态重连传递消息”,在后续GNN层中逐渐增加图形的密度,以便远距离的节点看到之前节点的原始状态(原始DRew)或者根据两个节点之间的距离添加跳过连接(vDRew版本)。例如(🖼️👇),在vDRew延迟消息传递中,来自第0层的起始节点将向第1层的2跳邻居显示其状态,并向第2层的3跳邻居显示其状态。 DRew显著提高了原始GNN执行远程任务的能力 – 实际上,启用DRew的GCN是目前在Peptides-func数据集上的最佳方法👀。

来源:Gutteridge等人

🦘 另一个很棒的想法是由Azabou等人提出的,通过在每个边缘插入新的慢节点,并使用特殊的连接模式(仅有来自起始节点的入站连接和与目标节点的对称边缘)来减慢消息传递的速度。慢节点大大提高了原始GNN在异质基准测试中的性能,并且还可以通过为相同原始图创建具有不同慢节点位置的视图来用于自监督学习。 HalfHop是一个易于包含的SSL组件,可以提升性能,并应该成为许多GNN库的标准套件👍。

来源:Azabou等人
作者提供的图片

生成模型 – 分子的稳定扩散,离散扩散

➡️ 扩散模型可以在特征空间(例如,像原始DDPM中的像素空间中的图像生成)或潜在空间(像稳定扩散一样)中工作。在特征空间中,您必须设计噪声过程以尊重特征空间的对称性和等变性。在潜在空间中,您只需将高斯噪声添加到(预训练的)编码器生成的特征中。大多数3D分子生成模型在特征空间中工作(如开创性的EDM),而Xu等人(著名的GeoDiff的作者)的新模型GeoLDM是第一个为3D分子生成定义潜在扩散的模型。也就是说,在训练了一个EGNN自编码器之后,GeoLDM基于去噪目标进行训练,其中噪声是从标准高斯分布中采样的。 GeoLDM相对于EDM和其他非潜在扩散方法带来了显着的改进👏。

GeoLDM. Source: Xu et al

➡️ 在非几何图领域(只有邻接和可能的分类节点特征),由DiGress(ICLR’23)引领的离散图扩散似乎是最适用的选项。Chen等人提出了EDGE,这是一种由节点度分布引导的离散扩散模型。与DiGress相比,EDGE中的最终目标图是一个断开的没有边的图,前向噪声模型通过伯努利分布去除边,反向过程则向最近的活跃节点(活跃是指度数在前一步发生变化的节点)添加边。由于度数指导引入的稀疏性,EDGE可以生成多达4k个节点和40k条边的大型图!

Graph Generation with EDGE. Source:Chen et al

➡️ 最后,Weilbach等人的“图形结构扩散模型”填补了连续生成模型和概率图模型之间的鸿沟,这些模型在感兴趣的问题中引入了某种结构-这些问题通常具有组合性质。其核心思想是将问题的结构编码为一个注意力掩码,该掩码尊重排列不变性,并在Transformer编码器的注意力计算中使用该掩码(根据定义,除非使用位置嵌入,否则变换器对输入令牌的排列是等变的)。GSDM可以处理二值连续矩阵分解、布尔电路,可以生成数独并进行排序。尤其有趣的是,该论文使用了一点讽刺的味道🙃。

GSDM task-to-attention-bias. Source: “Graphically Structured Diffusion Models” by Weilbach et al
Image By Author

几何学习:几何WL,Clifford代数

几何深度学习蓬勃发展!有许多有趣的论文被提出,这将占用整个帖子的大部分内容,所以我只会强调一些。

➡️ 几何WL终于在Joshi、Bodnar等人的工作中出现。几何WL通过几何特征(例如坐标或速度)扩展了WL测试的概念,并推导出高达k阶GWL的表达能力层次结构。主要结论:1️⃣等变模型比不变模型更具表达能力(注意在完全连接的图中,差异消失),2️⃣功能的张量阶提高表达能力,3️⃣功能的体阶提高表达能力(见下图👇)。即,球面>笛卡尔>标量,以及多体相互作用>仅距离。该论文还介绍了令人惊叹的学习资源Geometric GNN Dojo,您可以从第一原理推导和实现大多数SOTA模型!

Source: Joshi, Bodnar, et al

➡️ 超越向量,Ruhe等人推导出几何Clifford代数网络(GCANs)。Clifford代数通过双线性形式、三线性形式和(一般)多线性形式支持高阶相互作用。关键思想是Cartan-Dieudonné定理,即每个正交变换可以分解为超平面上的反射,而几何代数将数据表示为Pin(p,q,r)群的元素。GCANs引入了线性层、归一化、非线性以及如何使用神经网络对其进行参数化的概念。实验包括建模流体动力学和Navier-Stokes方程。

来源:Ruhe等人

实际上,已经有一项后续研究介绍了等变Clifford NNs – 您可以在Microsoft Research支持的CliffordLayers上了解有关Clifford代数基础和最新论文的更多信息。

💊 等变GNN(EGNN)是几何DL的阿司匹林,几乎应用于每个任务,并且已经看到了相当多的改进。 Eijkelboom等人将EGNN与在高阶结构(即单纯复形)上操作的复形网络相结合,形成EMPSN。这是第一个将几何和拓扑特征结合起来,并具有很大改进潜力的示例!最后,Passaro和Zitnick提出了一个巧妙的技巧,将SO(3)卷积减少为SO(2),将复杂性从O(L⁶)降低到O(L³),但具有数学等价性的保证👀。这一发现使得可以在更大的数据集上扩展几何模型,例如OpenCatalyst,并且已经在Equiformer V2中得到应用 – 很快将出现在许多其他用于几何模型的库中😉

图片作者:

分子:2D-3D预训练,MD中的不确定性估计

➡️ 刘,杜等人提出了MoleculeSDE,这是一个在分子数据上进行联合2D-3D预训练的新框架。除了标准的对比损失外,作者还添加了两个生成组件:通过基于分数的扩散生成重建2D -> 3D和3D -> 2D输入。使用标准的GIN和SchNet作为2D和3D模型,在PCQM4M v2上预训练的MoleculeSDE在下游微调任务中表现良好。

来源:MoleculeSDE Github存储库

➡️ Wollschläger等人对分子动力学和力场中的GNN的不确定性估计进行了全面研究。通过识别关键的物理知识和应用重点原则,作者提出了一种局部神经内核,这是对任何作用于不变和等变量的几何GNN的基于高斯过程的扩展(在SchNet、DimeNet和NequIP上进行了尝试)。在许多情况下,LNK的估计与需要训练多个模型的成本昂贵的集成方法相当或更好。

来源:Wollschläger等人
图片作者:

材料和蛋白质:蛋白质的CLIP,Ewald消息传递,等变增强

CLIP及其后代已成为文本到图像模型中的标准配料。我们能否为文本到蛋白质做同样的事情?当然可以!

➡️ 徐,袁等人提出了ProtST,这是一个学习文本蛋白质描述(通过PubMedBERT)和蛋白质序列(通过ESM)的联合表示的框架。除了对比损失外,ProtST还具有多模态掩码预测目标,例如在文本和蛋白质序列中屏蔽15%的标记,并基于潜在表示联合预测这些标记以及基于序列或语言的掩码预测损失。此外,作者设计了一个包含55万个对齐的蛋白质序列描述对的新颖的ProtDescribe数据集。 ProtST在PEER基准测试中在许多蛋白质建模任务上表现出色,包括蛋白质功能注释和定位,还可以从文本描述中进行零样本蛋白质检索(请参见下面的示例)。看起来ProtST在成为许多蛋白质生成模型背后的支撑的未来充满希望😉

来源:Xu, Yuan等人

实际上,ICML会议上有几篇关于蛋白质生成的作品,如Lin和AlQuraishi的GENIE和Yim、Trippe、De Bortoli、Mathieu等人的FrameDiff——这些作品尚未条件化于文本描述,因此在ProtST中加入这些作品似乎是一种毫无疑问的性能提升📈。

Gif来源:SE(3) Diffusion Github

⚛️ 分子上的MPNNs存在严格的局部性偏差,抑制了建模远程相互作用。Kosmala等人推导出Ewald信息传递,并应用了Ewald求和的思想,将相互作用势能分解为短程和长程项。短程相互作用由任何GNN模型建模,而长程相互作用是新的,并通过3D Fourier变换和傅里叶频率上的信息传递进行建模。结果表明,这个长程项非常灵活,可以应用于任何建模周期性和非周期性系统(如晶体或分子)的网络,如SchNet、DimeNet或GemNet。该模型在OC20和OE62数据集上进行了评估。如果你对更多细节感兴趣,请查看Arthur Kosmala在LOG2阅读小组的1小时讲座!

来源:Kosmala等人

在Lin等人的PotNet中,也使用了将Ewald求和用于3D晶体的类似思想,其中长程连接使用不完全的贝塞尔函数进行建模。PotNet在Materials Project数据集和JARVIS上进行了评估,因此阅读这两篇论文可以很好地理解Ewald求和为许多与晶体相关的任务带来的好处😉

来源:Lin等人

➡️ Duval, Schmidt等人在FAENet中给出了将任何GNNs赋予晶体和分子等等变性的另一种观点。一种标准的方法是将某些对称性和等变性直接嵌入GNN体系结构中(如EGNN、GemNet和Ewald信息传递)——这是一种安全但计算开销较大的方法(特别是当涉及到球谐函数和张量积时)。另一种常用的选择是在视觉领域中经常使用的方法——展示相同输入的多个增强版本,模型最终应该学习到增强版本中的相同不变性。作者选择了第二种方法,并设计了一种严格的方式来采样2D/3D数据的不变或等变增强(例如,能量或力)。为此,数据增强流程包括将2D/3D输入投影到规范表示(基于距离的协方差矩阵的PCA)中,从中我们可以均匀采样旋转。

所提出的FAENet是一个简单的模型,只使用距离,但在使用随机帧平均数据增强时表现出很好的性能,而且速度是原来的6-20倍。同样适用于晶体结构!

增强和随机帧平均。来源:Duval, Schmidt等人
作者提供的图片。

酷炫应用:算法推理、归纳式知识图谱补全、质谱图的图神经网络

本节中的一些论文并不属于上述任何一类,但仍值得关注。

➡️ “带因果规范化的神经算法推理” 由 Bevilacqua 等人解决了图学习中的一个常见问题 —— 在测试阶段对更大的输入进行OOD(Out-of-Distribution)泛化。研究算法推理问题的OOD泛化时,作者观察到存在许多不同的输入,在某个步骤上进行相同的计算。同时,这意味着某个输入子集不会(也不应该)影响预测结果。这个假设允许设计一个自监督目标(称为Hint-ReLIC),它更倾向于选择一个“有意义”的步骤而不是一堆不影响预测结果的步骤。这个新目标显著提高了许多CLRS-30任务的性能,使得微平均F1分数达到90%以上。我们可以思考一个有趣的问题,是否可以在一般的消息传递中利用相同的原理,提高其他图学习任务中的OOD转移效果 🤔

来源: “带因果规范化的神经算法推理” by Bevilacqua 等人

如果你对神经算法推理进一步感兴趣,可以查看知识和逻辑推理研讨会的论文集,其中还有更多相关的作品。

➡️ “InGram:通过关系图进行归纳式知识图谱嵌入” 由 Lee 等人似乎是ICML’23中极少数的知识图谱论文之一(根据我的搜索结果)。InGram是第一个能够在测试阶段归纳地泛化到未见实体和未见关系的方法之一。以前,归纳式知识图谱模型需要以某种形式学习关系嵌入,以便对新节点进行泛化,而在这种范式中,对未见关系的建模并不简单。InGram在原始多关系图的基础上构建了一个关系图,即关系类型的图,并通过运行GAT来学习关系的表示。实体的表示是通过随机初始化和GNN编码器获得的。在同时具有实体和关系表示的情况下,应用DistMult解码器作为评分函数。有很大的机会,InGram对于未见关系的处理可能会像GraIL(ICML 2020)对于未见实体的处理一样具有影响力😉。

来源: “InGram:通过关系图进行归纳式知识图谱嵌入” by Lee 等人

🌈 “使用图神经网络高效预测高分辨率质谱图” 由 Murphy 等人是将GNN应用到预测质谱图这一真实物理问题的一个酷炫应用。主要发现是质谱图中的大部分信号可以通过少量组分(产物离子和中性损失公式)来解释。并且可以从训练数据中挖掘出这些公式的词汇表。因此,这个问题可以被描述为图分类(或图属性预测),即给定一个分子图,预测与某些质谱值对应的词汇表中的令牌。这种方法,GRAFF-MS,通过使用具有边特征的GIN构建分子图表示,通过SignNet进行Laplacian特征提取,并结合协变特征进行图池化。与基线模型CFM-ID相比,GRAFF-MS的推理时间缩短到了约19分钟,性能也显著提高👀。

来源: “使用图神经网络高效预测高分辨率质谱图” by Murphy 等人

总结梗段

同一张照片上的四个迈克尔(+ 背景中的ε)!

2022年的梗终于集中在迈克尔·布朗斯坦身上!