《Steerable神经网络的简单介绍(第1部分)》
《可操控的神经网络简述(第一部分)》
什么是可操纵神经网络和上下文
介绍
几何深度学习作为深度学习的一个分支,旨在扩展传统的AI框架,如卷积神经网络,以处理以图形、曲面或点云表示的3D或2D几何对象。通过将几何关系和空间依赖性直接融入学习框架中,几何深度学习利用数据的固有结构属性,消除了对内存密集型数据增强技术的要求。出于所有这些原因,几何深度学习可以被视为处理计算机视觉、自然语言处理等领域中复杂数据场景的有价值工具。关于任务类型和转换类型,已经提出了大量新的CNN架构,如“球面神经网络”(链接),“图形神经网络”(链接)和“可操纵神经网络”。
可操纵神经网络因其能够扩展普通卷积神经网络(CNNs)的能力而引起了广泛的关注。这些网络可以被看作是CNN的演进,其中卷积核被调节以满足特定约束条件。尽管CNN在对平移等变方面表现出色,但可操纵神经网络通过提供增强的灵活性和捕捉更广范围的转换(如旋转)进一步发展了这一能力。
本教程将介绍“可操纵神经网络”(S-CNNs),试图传达对其数学概念的直观理解,并逐步解释如何设计这些网络。教程由两篇文章组成。这篇第一篇文章作为可操纵神经网络(NNs)的介绍,解释了它们的目的,并深入探讨了S-CNNs的概念和形式主义。第二篇文章(这里)在高层次上讨论了可操纵滤波器的设计和可操纵网络作为整体。
本文旨在填补当前科学文献和更广泛的数据科学读者之间的差距。它非常适合技术专业人员以及这个新的机器学习分支的研究人员。
以下论文作为参考:
[1] “3D可操纵CNN:学习体积数据的旋转等变特征”,Weilier等人,(链接);
[2] “可操纵CNNs”,Cohen等人。链接);
[3] “学习旋转等变CNN的可操纵滤波器”,Weilier等人,(链接)
[4] “General E(2)-等变可操纵CNNs” Weilier等人,(链接)
[5] “用于局部尺度不变卷积神经网络的等变可操纵滤波器”,Ghosh等人。(链接)
[6] “构建E(n)-等变可操纵CNNs的程序”,Cesa等人。(链接)
什么是可操纵神经网络:
可操纵神经网络得名于其使用的特定类型的滤波器。这种滤波器被称为g-可操纵滤波器,受到在图像识别领域中由90年代初开始流行的可操纵滤波器的启发,用于边缘检测或定向纹理分析。可操纵意味着常被控制、可管理、可以被管理或控制。按照这个约定,可操纵滤波器的响应是可定向的,并且适应于输入(例如图像)的特定方向。可操纵性与另一个非常重要的属性等变性有关。在等变滤波器中,如果将滤波器的输入根据精确定义的几何变换g(平移、旋转、位移)进行变换,则滤波器的输出(由输入与滤波器的卷积产生)会通过相同的变换g进行变换。一般来说,等变性不要求变换(输入和输出之一)是相同的。这个概念将在下一段更好地解释,但现在它使我们能够提供对可操纵滤波器和可操纵CNN的第一个定义。
可定義為核心結構為不同可控濾波器串聯的控制 CNN 濾波器。這些濾波器在與一組明確的幾何變換相對於卷積操作的等變性屬性方面顯示出等價性特性。
如後面所見,卷積運算的等變性條件導致了對核心結構和權重的特定約束。由此定義,現在可以定義什麼是一個可控 CNN:可控神經網絡是由一系列可控濾波器組成的神經網絡。
S-CNN 用於什麼:
正常的 CNN 的強項在於其對於平移的等變性。然而,可控 NN 更靈活,可以展示其他類型的變換,如旋轉。在旋轉等變性問題中,未修改的 CNN 被迫學習相同濾波器的旋轉版本,引入冗余自由度,增加過擬合風險。因此,可控 CNN 網絡可以通過直接融入輸入的幾何變換信息,在處理具有幾何描述和表示的輸入(如圖像、流形或向量場)時優於傳統 CNN。這種特點使得 S-CNN 在需要處理具有幾何描述和表示的輸入的多個具有挑戰性的任務中特別有用。
一些可能的實際應用例如:
- 具有挑戰性的 2D 圖像分割:根據輸入的顯微鏡圖像,預測細胞邊界。
- 3D 模型分類:分類和識別 3D 物體。
- 3D 化學結構分類:根據化學結構預測分子的 3D 化學結構。例如,根據其序列解釋 5.4 節中的一篇論文 [2] 中的一組氨基酸的空間偏好的預測。

初步定義和背景
介紹了可控神經網絡及其應用後,讓我們深入研究其背後的理論。本節提供了對等變性和可控性的更加正式的解釋,提供了在理解後續文章中的可控濾波器構造時非常重要的定義和正式框架。本文依賴對於映射和幾何變換的理解,更多信息可以在這篇其它的文章中找到。
1. 等變性:
等變性是對稱問題中特別有興趣的特性。如前所述,在等變模型中,當對輸入進行變換時,輸出也會進行相同的變換,使得變換的應用能在模型應用之前或之後進行,而不會改變整體行為。在日常生活中,有很多等變性的例子。例如,駕駛時,轉動方向盤時汽車轉向的方向與汽車指向的方向是等變的。正式地說,如果我們有一個映射 𝛙: X → Y,其中 X ⊂ ℝᵈ,Y ⊂ ℝᵈ¹,g 是屬於群 G 的幾何變換,則 𝛙 對於 G 是等變的,如果:
其中Π₀(g):X → X’和Π₁(g):Y → Y’是由g对x的应用确定的两个线性映射(例如,通过乘法应用的矩阵)。下图是从文献 [2] 中截取的视觉示例。在图像中,g是一个旋转,具体来说是“-90°的旋转”;因此,它被称为r。Π₀(r)在𝛙的定义域中操作(即X),而Π₁(r)在𝛙的值域中工作(即Y)。
如果X=ℝ²,即2维笛卡尔空间,而r是“顺时针旋转90°”的变换,那么矩阵Π₀(r)将等于一个2×2的欧拉矩阵,其中θ=π/2。
值得注意的是,如果𝛙对于G是等变的,那么应用一个变换然后计算映射的结果与计算映射然后应用变换的结果是相同的,这个属性以前被称为交换。
同时,这里还值得提到一种特殊情况。不变性,即一种特殊类型的等变性,其中X=X’且Y=Y’。无论输入如何变换,输出始终保持不变。从深度学习的角度来看,不变滤波器可能在物体识别方面很有用:无论输入图片如何旋转,滤波器的输出始终相同。需要注意的是,空间X和Y可能不一定具有相同的维度,例如,如果我们试图确定一张图片中汽车的方向(Y为2维向量),而输入X为一个2维像素数组,则变换Π₁(g)和Π₀(g)将不同,因为它们应用于不同的空间,即使它们共享相同的g。
2. 可调滤波器:
与汽车的可调转向性相比,可调滤波器的直观性更具挑战性。然而,两者的共同目标是实现对特定参数具有一致且可预测的响应 —— 这种响应与滤波器本身的固有变换密切相关。
一个直观的例子可能是以下情况:想象一下屋顶上的风向标,显示风的方向。而不是安装每种可能风向的独立传感器(这是不切实际的),你有一个风向标,它旋转来与当前风向对齐。可调滤波器就像一个风向标一样。它能够适应输入信号中编码的方向而不需要为每种可能的方向安装独立的滤波器。同样,图像处理中的可调滤波器适应图像中的不同特征或方向,而不需要为输入的每个可能方向使用单独的滤波器。这种方法为建模系统提供了一个智能而有效的方法。在机器学习的背景下,它使我们能够专注于构建有价值的模型,而无需担心增强或添加额外的权重来处理不同的方向。
虽然可调性可以普遍应用于任何一组变换,但我们将在这里使用旋转来更正式地介绍这个想法。让𝛙: ℝᵈ →ℝᵈ¹ 是一个卷积映射,其卷积核函数为k。对于给定的输入信号 x∈ℝⁿ ,具有依赖于x的输入信号 f(x) ∈ ℝᵈ 和输出信号 f ₁(x) ∈ ℝᵈ¹ ,我们可以写成:f ₁(x)= 𝛙( f(x)) ,这意味着f ₁(x)= k(x) ∗ f(x) 。
如果以下条件成立,则该滤波器在旋转方面被定义为可调的:
(1) 每个输出元素的卷积核 k(x) 可以表示为基函数 ψⱼ(x) 的总和,其中 j=1,..M 。
(2) 该滤波器的旋转(用任意角度 θ 表示为 g_θ)可以表示为对每个单独的基函数应用的旋转的总和(对于每个 θ 都有效)。在数学上,它意味着:
由于这个特性,通过修改wⱼ的值,可以将滤波器的响应唯一地定向到输入。让我们举个例子。在二维空间中,一个单一的可控滤波器的最简明的说明是一个核函数为二维高斯函数的方向导数滤波器。在这种情况下,k:ℝ² →ℝ,x = (x₁,x₂) ∈ ℝ²:
在接下来的几行中,我们将展示这个滤波器按照上述解释的意义上是可控的。根据理论,我们知道由于k的值域为ℝ,我们可以将旋转后的滤波器写为Eq.3(有关更多信息,请查看下一节中的Eq.3)。
通过拆解这个方程,我们可以展示其可控性:
在这种情况下,我们应用了变换g_θ:ℝ²→ℝ²,它由二维欧拉矩阵表示(参见后面的引导表示)。如果我们计算k(g_θ ⁻¹(x₁,x₂)),经过一些代数运算,我们可以看到,这个尖脉冲滤波器的任意旋转版本可以表示为两个基础函数ѱ₁(x₁,x₂)和ѱ₂(x₁,x₂)的线性组合,其系数由θ参数化。
如下所示的方程式(Eq.6)显示了可控滤波器在神经网络中的威力。通过引入这些滤波器,我们有能力构建一个可控的核,使其响应随输入的方向而定。每个基础函数都像是一个多功能工具,允许网络通过学习的权重‘w₁’和‘w₂’有效地将这些函数进行混合,以准确地响应不同的方向。例如,当网络遇到具有不同方向的数据(如图像中的旋转对象)时,它可以调整这些权重以使核的响应与输入数据的方向对齐。这种适应性提高了效率和准确性,用更少的参数得到相同或更好的结果。因此,这种方法可以作为使用可控属性处理不同输入方向的更强大的CNN的基础。具体而言,在下一篇文章中,我们将进一步探讨这一点,并看看如何利用可控滤波器的概念构建等变滤波器。
然而,在我们深入讨论之前,该背景下的一些定义将提供更清晰的理解,并促进我们的讨论。因此,在下一段中,我们将介绍一些关于卷积的形式化定义。
3. 正式化:
在这部分中,我们尝试向读者提供对分析中考虑的所有要素的图解解释。这种正式化将使我们能够更正式地定义CNN以及在输入层上操作的几何变换。这将使我们在下一篇文章中了解可操作CNN的工作原理。
这些要素包括:
- 空间 S:分析发生的空间。尽管 S 可以延伸到任意多维,但在二维或三维空间中最容易可视化。例如,如果我们考虑一张图像,初始空间是二维的,相应于像素的坐标平面(ℤ²)。如果我们考虑一个“三维物体”,则空间 S 是三维的,ℤ³。因此,点 x∈S 标识了一个位置。
- 输入函数 f:函数 f: S → F₀ = ℝ ͨ,描述了我们的几何空间上的输入(它可以是流形或矢量场)。这可以看作是从空间 S 到 ℝ ͨ 的函数,其中每个位置 x 都与“特征” f(x) 相连,也称为f 在 x 处的纤维。让我们举些例子:灰度图像可以看作是函数 f: ℝ² → ℝ,其中 S=ℝ²,c=1。如果我们考虑一个带色彩的三维流形,函数将是 f: ℝ³→ ℝ³,其中每个位置被赋予 RGB 颜色,S=ℝ³,c=3。在实践中,函数 f 通常表示为一些采样空间上纤维的打包结构;对于标准格式的图像,纤维在水平和垂直方向上均匀采样(即像素)。函数 f 构成了神经网络的输入层(参见图2A、图2B)。从现在开始,这个起始层将被称为 F₀。
- 变换集合 G:一旦分析对象被充分定义,我们可以定义网络应当等变的变换集合。单个变换 g∈G 可以总是描述为应用于数学空间上的函数。给定输入函数 f:S→ℝ ͨ,可以将π(g): ℝ ͨ → ℝ ͨ 描述为“g 在 ℝ ͨ 中诱导的变换”。函数 f 存在于 ℝ ͨ,但变换 g 操作在 S 空间中。 π(g) 描述了 f(在 ℝ ͨ 中)在应用 g(在 S 中)时的变换。如果将 g 视为由两个组成部分 r(旋转)和 t(平移)组成的旋转平移组合,则一般来说,输入函数 f(x) 在变换 g 下的变换如等式7所述。在下面的图像中,如果 f 是矢量场,则 π(g) 是一个 c×c 的矩阵,而 , 如果 f 是标量场( f : ℝ² → ℝ ),则 π(r) = 1。所考虑的变换群 G 通常是旋转(在这种情况下我们将讨论 SO(2) 网络),甚至是旋转 + 平移(在这种情况下我们将讨论 SE(2) 网络)。类似地,在三维空间中,考虑三维刚体运动( SO(3) 或 SE(3) )。
- 特征图:根据第二点中给定的f的定义,神经网络的每一层的输出可以被看作是在初始空间S上应用函数f ₙ 的结果。形式上可以表示为从S到目标空间Fₙ的函数(f: S → Fₙ),其中 Fₙ=ℝ ͨ ʿⁿ ʾ,而cⁿ是第n层的特征数量。例如,如果以图2B为例,我们可以看到初始信号(输入)可以被看作是一个函数f: S= ℝ² → F₀= ℝ³,而f₁: S= ℝ² → F₁= ℝ²。
- NN滤波器 φn:一种滤波器可以被定义为连接两个连续层的映射方式,即φ: Fₙ→ Fₙ₊₁。将这样的滤波器应用于层表示对应的内核k进行卷积操作。在理解可操作的神经网络中,这种卷积操作的定义非常关键。因此,在下面的段落中我们专门讨论了这个问题。
NN滤波器和卷积
在这种情况下,内核可以被看作是一个函数k: S → ℝ ͨ ʿⁿ ʾ ˟ ͨ ʿⁿ⁺ ¹ ʾ,其中S中的每个位置与一个维度为cʿⁿ ʾ ˟ cʿⁿ⁺ ¹ ʾ的矩阵相连。为了清晰起见,cⁿ和cⁿ⁺ ¹分别代表Fₙ和Fₙ₊₁的维度(特征数量)。
我们可以将卷积定义如下:
上面的方程式8表示了连接第n层和n+1层的函数关系;下面的方程式表示了n维空间S中卷积的定义。函数σ(x)表示应用于卷积输出的非线性函数。在图2B中,我们可以看到在离散域中计算内核和输入层之间的卷积过程。下面我们以一个灰度图像f₀: ℝ² → ℝ作为例子来说明。我们可以应用第2节讨论的滤波器,即一个使用高斯函数k(x₁, x₂)作为2D滤波器的可调节滤波器,其中k: ℝ² → ℝ¹˟¹=ℝ。在这种情况下,将滤波器k应用于f₀即是经典的二维卷积,可以表示为:
不同的是在图2B中,你可以看到另一个例子,其中f₀: ℝ² -> ℝ³(例如RGB图像),f₁: ℝ² -> ℝ²,k₀: ℝ² -> ℝ³ ˟ ²。
结合我们目前讨论的所有要点,可以将神经网络在此形式主义中可视化。每个个体特征图可以被解释为一个函数 f: S → Fₙ,其中 Fₙ= ℝʿⁿ ʾ 且 f₀(x) 表示网络输入。滤波器的应用涉及与其在 Eq.8 中定义的卷积核函数的卷积。值得注意的是,到目前为止,主要的创新在于将 f 视为在位置空间 S 中操作的函数的几何表示,以及在该空间中定义卷积的定义。
下面,我们提供了神经网络在这个背景下的表示:
在下一篇文章中,我们将了解到,这种形式主义的定义将如何帮助我们设计可控的卷积神经网络滤波器。
结论
在我们的可控神经网络教程的这一初始部分,我们已经建立了可控神经网络、等变性和可控滤波器的基本概念。我们还介绍了一个数学框架,以提供对这些概念的深入理解的严格基础。等变性在变换下保持行为,而可控滤波器智能地适应输入的方向。这为设计等变卷积神经网络滤波器铺平了道路,增强了边缘检测和基于方向的识别能力。下一篇文章将利用这些概念更深入地探讨可控卷积神经网络滤波器的机制,从而完成我们对这种强大的神经网络范式的探索之旅。
✍️ 📄 关于作者:
1️⃣ Matteo Ciprian, 机器学习工程师/研究员
- 帕多瓦大学电信工程硕士学位。目前在传感器融合、信号处理和应用人工智能领域工作。在与电子健康和可穿戴技术相关的项目中有经验(学术研究和公司领域)。专注于开发异常检测算法,以及推动深度学习和传感器融合技术的发展。对哲学充满热情。在Youtube上创作内容。 🔗 链接: 💼 Linkedin 📹 Youtube 👨💻Instagram
2️⃣ Robert Schoonmaker, 信号处理/机器学习研究员
- 来自达勒姆大学的计算凝聚态物理学博士。专注于应用机器学习和非线性统计学,目前正在研究在合成孔径雷达和类似系统上使用 GPU 计算方法的应用。经验包括开发用于传感器融合和定位技术的对称机器学习方法。 🔗 链接: 💼 Linkedin