新模型提供了加快药物研发的方法

通过将语言模型应用于蛋白质药物相互作用,研究人员可以快速筛选大量潜在的药物化合物库

Image: iStock

药物化合物的巨大库存可能会为各种疾病(如癌症或心脏病)提供潜在的治疗方法。理想情况下,科学家们希望实验性地测试每种化合物与所有可能的靶点的相互作用,但这种筛选方法非常耗时。

近年来,研究人员开始使用计算方法对这些库进行筛选,希望加速药物发现。然而,许多这些方法也需要很长时间,因为它们大多数计算每个目标蛋白质的三维结构从其氨基酸序列,然后使用这些结构来预测它将与哪些药物分子相互作用。

麻省理工学院和塔夫茨大学的研究人员现在设计了一种基于一种称为“大型语言模型”的人工智能算法的替代计算方法。这些模型(ChatGPT就是其中一个著名的例子)可以分析大量文本,找出哪些单词(在这种情况下是氨基酸)最有可能一起出现。这个新模型被称为ConPLex,可以将目标蛋白质与潜在药物分子匹配,而无需执行计算密集型的计算分子结构的步骤。

使用这种方法,研究人员可以在一天内筛选超过1亿个化合物,远远超过任何现有模型。

“这项工作解决了对潜在药物候选的高效准确的体外筛选的需求,模型的可扩展性使其能够进行大规模的筛选,以评估靶点效应的离靶作用、药物重定位以及确定突变对药物结合的影响,”麻省理工学院计算机科学与人工智能实验室(CSAIL)的计算生物学组组长、数学学院Simon教授Bonnie Berger说,他也是这项新研究的高级作者之一。

塔夫茨大学计算机科学教授Lenore Cowen也是该论文的高级作者之一,该论文本周发表在《美国国家科学院院刊》上。CSAIL研究科学家Rohit Singh和麻省理工学院研究生Samuel Sledzieski是该论文的第一作者,麻省理工学院生物工程副教授、MGH、麻省理工学院和哈佛大学Ragon研究所成员Bryan Bryson也是该论文的作者之一。除了发表论文外,研究人员还将他们的模型放到了网上,供其他科学家使用。

作出预测

近年来,计算科学家在开发可以根据氨基酸序列预测蛋白质结构方面取得了巨大进步。然而,使用这些模型来预测大量潜在药物与癌症蛋白质之间的相互作用,例如,已经被证明是具有挑战性的,主要是因为计算蛋白质的三维结构需要大量的时间和计算能力。

另一个障碍是这些模型没有很好地消除称为诱饵化合物的化合物,这些化合物与成功的药物非常相似,但实际上与目标没有良好的相互作用。

“该领域长期以来的挑战之一是这些方法很脆弱,如果我给模型一个几乎看起来像真正的药物或小分子,但在某些微妙的方式上略有不同,模型可能仍然会预测它们会相互作用,即使事实上不应该如此,”Singh说。

研究人员设计了可以克服这种脆弱性的模型,但它们通常只适用于一类药物分子,并且不适合大规模筛选,因为计算时间太长。

麻省理工学院团队决定采取一种替代方法,该方法基于他们2019年首次开发的一种蛋白质模型。使用超过20,000个蛋白质的数据库,语言模型将此信息编码为每个氨基酸序列的有意义的数字表示,捕捉序列和结构之间的关联。

“使用这些语言模型,即使具有非常不同序列但可能具有相似结构或相似功能的蛋白质也可以用类似的方式在这种语言空间中表示,我们能够利用这一点来进行预测,”Sledzieski说。

在他们的新研究中,研究人员将蛋白质模型应用于确定哪些蛋白质序列将与特定药物分子相互作用,这两者都具有数值表示,由神经网络转换为共享空间。他们在已知的蛋白质-药物相互作用上训练了网络,使其学会将蛋白质的特定特征与药物结合能力相关联,而无需计算任何分子的三维结构。

“使用这种高质量的数值表示,该模型可以完全绕过原子表示,并从这些数字预测这种药物是否能够结合,”Singh说。“这样做的好处是避免了需要经历原子表示的需要,但是数字仍然具有所有所需的信息。”

这种方法的另一个优点是考虑到了蛋白质结构的灵活性,这些结构可能会在与药物分子相互作用时产生微小的变化和略微不同的形状。

高亲和力

为了使他们的模型不太可能被假药物分子欺骗,研究人员还基于对比学习的概念,加入了一个培训阶段。在这种方法下,研究人员向模型提供“真实”的药物和模拟物的示例,并教会它区分它们。

然后,研究人员通过筛选大约4,700种候选药物分子,测试了他们与一组被称为蛋白激酶的51种酶结合的能力,以测试他们的模型。

从前几名中选出19个药物-蛋白质对进行实验测试。实验揭示,这19种药物中,有12种具有强的结合亲和力(在纳摩尔范围内),而几乎所有其他可能的药物-蛋白质对都没有亲和力。其中四对药物-蛋白质的结合亲和力极高,亚纳摩尔级别的亲和力非常强,即极小的药物浓度(每十亿份之一)就可以抑制蛋白质。

虽然研究人员在这项研究中主要关注筛选小分子药物,但他们现在正在努力将这种方法应用于其他类型的药物,如治疗性抗体。这种建模方法也可能对运行潜在药物化合物的毒性筛选非常有用,以确保在动物模型中测试它们之前,它们不会有任何不良反应。

“药物发现之所以如此昂贵,部分原因在于高失败率。如果我们能通过事先说出这种药物不太可能成功来减少这些失败率,那么这可能在降低药物发现成本方面发挥重要作用,”辛格说。

国家癌症研究所癌症数据科学实验室主任Eytan Ruppin说:“这种新方法‘代表了药物-靶标相互作用预测的重大突破,并为未来研究开辟了更多的机会,以进一步增强其能力。’例如,将结构信息纳入潜在空间或探索生成模拟物的分子生成方法可能会进一步改善预测。”

该研究得到了美国国家卫生研究院、美国国家科学基金会和菲利普和苏珊·拉贡基金会的资助。