是预先训练的基础模型是分子机器学习的未来吗?介绍了前所未有的数据集和Graphium机器学习库
预先训练的基础模型:分子机器学习时代的未来?揭秘前所未有的数据集和Graphium机器学习库
机器学习在药物发现中的最新成果大多归功于图形和几何深度学习模型。这些技术在建模原子间相互作用、分子表示学习、3D和4D情况、活动和性质预测、力场创建和分子生成方面证明了有效性。与其他深度学习技术一样,它们需要大量的训练数据以提供出色的建模准确性。然而,目前论文中大多数治疗方面的训练数据集样本较小。令人惊讶的是,最近自监督学习、计算机视觉和自然语言处理的基础模型以及深度理解的发展显著增加了数据效率。
事实上,已经证明通过预先以大量数据进行预培训的巨大模型花费来减少下游任务所需的数据量,这是一次性的投资。在这些成就之后,其他研究探讨了预训练大型分子图神经网络在低数据分子建模方面的优势。由于缺乏大型有标签的分子数据集,这些研究只能使用自监督方法,如对比学习、自编码器或去噪任务。迄今为止,通过从这些模型微调,自监督模型在自然语言处理和计算机视觉中取得的改进只占低数据建模尝试的一小部分。
由于分子及其构像的行为取决于其环境,并且主要由量子物理学控制,这在一定程度上解释了分子及其构像作为图形的不确定性。例如,众所周知,具有相似结构的分子可以表现出明显不同的生物活性水平,这种现象被称为活性悬崖,它限制了仅基于结构数据的图形建模。根据他们的观点,开发高效的分子建模基模需要使用来自量子机械描述和生物环境依赖性数据的监督训练所产生的信息。
魁北克人工智能研究所、Valence Labs、蒙特利尔大学、麦吉尔大学、Graphcore、新泽西理工学院、亚琛工业大学和圣路易斯蒙特利尔高等商学院的研究人员为分子研究作出了三项贡献。首先,他们介绍了一个全新的多任务数据集家族,其规模比现有水平大几个量级。其次,他们讨论了Graphium,一个能够在庞大数据集上进行有效训练的图形机器学习包。第三,他们提供了多个基准模型,展示了在多任务训练中的益处。他们提供了三个全面维护的多标签数据集,目前是最大的数据集之一,其中包含约1亿个分子和3000多种具有稀疏定义的活动。这些数据集结合了通过模拟和湿实验测试学习到的描述量子和生物特征的标签,并且为基础模型的监督训练而创建。这些标签涵盖了节点级和图级的责任。
多种标签使得能够有效地获得转移技能。它能够通过增加这些模型的普适性,建立基础模型,为各种下游分子建模活动提供支持。他们精心审核并添加到现有数据中,以创建这些庞大的数据库。因此,他们收集中每个分子的描述都包括有关其量子机械特性和生物功能的信息。量子机械特性的能量、电性和几何组分是使用各种尖端技术计算的,包括半经验技术如PM6以及基于密度泛函理论的方法,如B3LYP。正如图1所示,他们的生物活性数据库包括来自毒理学分析、基因表达分析和剂量-反应生物测定的分子标记。
图1:所提议的分子数据集系列的视觉概述。这些组合被设计为在执行多个任务时一起使用。它们包含图级别和节点级别的工作,以及量子、化学和生物方面,分类和连续数据点。
量子和生物效应的同时建模促进了对分子复杂的环境相关特征进行表征的能力。从通常是小型实验数据集中获得这些特征是不可能的。Graphium图书馆开发了一个完整的图形机器学习工具包,称为Graphium,以便在这些庞大的多任务数据集上进行有效的训练。这种创新的图书馆通过包含特征集合和复杂的特征交互来简化分子图基础模型的创建和训练过程。Graphium通过将特征和表示视为基本构建组件,并添加尖端的GNN层来解决以前的框架的局限性,这些框架主要用于节点、边缘和图形特征之间的顺序样本之间的少量交互。
此外,Graphium通过提供数据集组合、处理缺失数据和联合训练等功能,以简单且高度可配置的方式处理训练模型的重要而又困难的工程问题。对于所提供的数据集混合,他们在单数据集和多数据集场景下训练了各种模型。这些提供了可靠的基准,可以作为这些数据集的即将使用者的参考点,并为使用这种多数据集方法进行训练的优势提供一些见解。具体模型的结果表明,结合更大的数据集训练低资源任务可以大大提高性能。
总之,这项工作提供了最大的2D分子数据集。这些数据集专门用于训练能够准确理解分子的量子特性和生物灵活性的基础模型,并因此可针对各种下游应用进行定制。此外,他们创建了Graphium图书馆以简化这些模型的训练,并提供不同的基准结果,证明了使用的数据集和图书馆的潜力。