微软研究员提出神经图模型(NGMs):一种新型的概率图模型(PGM),它通过深度神经网络学习表示域上的概率函数

Microsoft researchers propose Neural Graph Models (NGMs) a new type of Probabilistic Graph Model (PGM) that learns probability functions on the representation domain through deep neural networks.

在不确定性推理领域,概率图模型(PGMs)长期以来一直是数据分析的重要工具。这些模型提供了一个结构化框架,用于表示数据集中各种特征之间的关系,并可以学习捕捉这些特征之间功能依赖关系的潜在概率分布。无论是从数据中学习、执行推理还是生成样本,图模型都提供了探索复杂领域的有价值的能力。然而,它们也存在一些限制,通常受到变量类型限制和涉及操作的复杂性的约束。

传统的PGMs在各个领域都证明了其有效性,但缺乏灵活性。许多图模型专门设计用于处理连续变量或分类变量,限制了它们在跨不同类型的数据上的适用性。此外,特定的限制,例如在有向无环图(DAGs)中不允许连续变量作为分类变量的父节点,可能会限制它们的灵活性。此外,传统的图模型在能够表示的概率分布类型方面可能受到限制,通常偏好多元高斯分布。

微软研究人员在最近的“神经图模型”论文中提出了对这些挑战的突破性解决方案,该论文在第17届欧洲符号和数量方法与不确定性推理会议(ECSQARU 2023)上进行了介绍。他们引入了神经图模型(NGMs),这是一种新型的PGM,利用深度神经网络来学习和高效地表示域上的概率函数。NGMs的独特之处在于它们能够超越传统PGMs常见的限制。

NGMs提供了一种多用途的框架,用于对概率分布进行建模,而不会对变量类型或分布施加限制。这意味着它们可以处理各种输入数据类型,包括分类、连续、图像和嵌入。此外,NGMs提供了高效的推理和采样解决方案,使其成为概率建模的强大工具。

NGMs的核心思想是利用深度神经网络对给定域上的概率函数进行参数化。这个神经网络可以通过优化损失函数来高效地进行训练,该损失函数同时要求遵守指定的依赖结构(作为输入图,可以是有向或无向)并拟合数据。与传统的PGMs不同,NGMs不受常见约束的限制,可以无缝处理各种数据类型。

为了更深入地了解NGMs,让我们通过对真实和合成数据集进行实验验证来探索它们的性能:

  1. 婴儿死亡数据:研究人员使用来自疾病控制与预防中心(CDC)的数据,重点关注美国活产的妊娠和出生变量。数据集还包括有关婴儿死亡的信息。由于此类事件的罕见性,预测婴儿死亡是一项具有挑战性的任务。然而,与其他方法相比,NGMs在推理准确性方面表现出色。它们优于逻辑回归和贝叶斯网络,并在分类和有序变量方面与可解释的提升机(EBM)表现相当。
  2. 合成高斯图模型数据:除了实际数据外,研究人员还在从高斯图模型生成的合成数据上评估了NGMs。NGMs展示了它们适应复杂数据结构并在这种合成环境中表现良好的能力。
  3. 肺癌数据:另一个数据集来自Kaggle,与肺癌相关,被用于进一步验证NGMs。虽然没有详细讨论该数据集的具体结果,但它展示了NGMs在各个领域的适用性。

NGMs(神经图模型)的一个显著特点是它们能够处理传统模型难以处理的情况,特别是在预测低概率事件方面。例如,NGMs在预测婴儿死因时表现出色,即使这种情况很少发生。这突显了NGMs的稳健性和在需要精确预测罕见结果的领域中的潜力。

总而言之,神经图模型(NGMs)显著推进了概率图模型的发展。通过将深度神经网络的灵活性和表达能力与图模型的结构优势相结合,NGMs提供了一种强大而多样化的解决方案。它们摆脱了传统PGMs所施加的限制,使从业者能够处理更广泛的数据类型和分布。凭借其在处理复杂依赖关系和准确预测罕见事件方面取得的成功,NGMs在解决各个领域的现实挑战方面具有巨大的潜力。鼓励研究人员和数据科学家探索NGMs的能力,并利用其潜力来增强概率建模工作。