通过将化学家的洞察力与AI模型相结合,在一个步骤中预测逆合成
通过结合化学家洞察力和AI模型,一步预测逆合成
在有机合成中,分子通过有机过程构建,使其成为合成化学的重要分支。计算机辅助有机合成中最重要的工作之一是反合成分析,即在给定所需结果的情况下,提出可能的反应前体。从大量可能性中找到最佳的反应路径需要准确预测反应物。在本文的语境中,微软的研究人员将为产品分子提供原子的底物称为“反应物”。在论文中,催化剂或溶剂虽然可以促进反应,但它们本身不对最终产物贡献任何原子,因此不计为反应物。最近,基于机器学习的方法在解决这个问题上显示出了相当大的潜力。许多方法在输出序列的逐个令牌自回归生成方面具有共同特点,其中许多方法使用编码器-解码器框架,其中编码器组件将分子序列或图形编码为高维向量,而解码器组件解码编码器的输出。
反合成分析过程被概念化为一种从一种语言到另一种语言的翻译,即从结果到反应物的翻译。使用类似贝叶斯概率的方法,使用分子转换器预测反合成路线,采用探索性方法。将反合成分析重新构建为机器翻译问题,使其能够利用自然语言处理中成熟的深度神经网络。
在解码阶段,使用逐个令牌自回归来构建SMILES输出字符串;在传统方法中,SMILES字符串中的基本令牌通常指的是单个原子或分子。对于从事合成设计或反合成分析的化学家来说,这并不直观或可解释。面对现实世界的路线搜索挑战时,大多数合成化学家依靠多年的培训和经验,通过将已有反应路径的知识与从基本原理中获得的抽象了解结合起来,开发出反应途径。人类通常执行反合成分析,该分析从与目标分子化学相似或保持相似的分子片段或亚结构开始。这些片段或亚结构是一个拼图的一部分,如果正确组合,可以通过一系列化学过程导致最终产物。
研究人员建议在有机合成中使用通常保持的亚结构,而不是依赖专家系统或模板库。这些亚结构从大量已知反应中检索,并捕捉反应物和产物之间微小的共同点。从这个意义上讲,他们可以将反合成分析视为亚结构水平上的序列到序列学习问题。
提取亚结构的建模
在有机化学中,与目标分子在化学上相似或保留的分子片段或较小的构建部分称为“亚结构”。这些亚结构对于分析反合成非常重要,因为它们有助于阐明复杂分子如何组装。
基于这个想法,该框架主要由以下三个部分组成:
如果提供一个产品分子,此模块将找到其他生成类似产品的反应。它使用跨语言的存储器检索器,可以训练以适当地将反应物和产物排列在高维向量空间中。
研究人员使用分子指纹技术来隔离产品分子和最佳交叉对齐可能性之间的共享亚结构。这些亚结构在反应水平上提供底物和产物之间的片段到片段映射。
在学习过程中,研究人员将初始的一系列令牌转换为亚结构序列。亚结构SMILES字符串首先出现在新的输入序列中,接下来是带有虚拟编号的附加片段的SMILES字符串。虚拟编号的片段是输出序列。化学键的形成和连接位点用对应的虚拟编号表示。
与已尝试和评估的其他方法相比,该方法在几乎所有地方都具有相同或更高的顶级准确性。模型在成功恢复亚结构的数据子集上的表现显著提高。
使用该方法成功提取了美国专利商标局(USPTO)测试数据集中的82%的物品,证明了其普适性。
为了减少分子的字符串表示长度和需要预测的原子数量,我们只需要生成与亚结构中的虚拟标记粒子相关的片段。
总之,微软研究人员设计了一种从普遍保留的亚结构中提取用于反合成预测的方法。他们可以在没有任何人类帮助的情况下提取出底层结构。与先前发布的模型相比,当前实现是一种改进。他们还表明,提高底层亚结构提取过程可以帮助模型在反合成预测方面表现更好。目标是激发读者对令人兴奋的、多学科的反合成预测领域及相关研究的好奇心。