通过一种新的人工智能模型,在蛋白质设计方面突破界限,能够理解与任何种类的分子的相互作用

这个新模型可以通过调整蛋白质与任何种类的其他分子的特定相互作用来扩展ML模型在工程具有所需功能的蛋白质方面的适用性,从而有效地影响生物技术和临床应用

作者通过编辑Dall-E-2代(最初在此处使用)创建的“蛋白质工程”概念艺术。

在Deepmind的AlphaFold在结构生物学方面引发革命之后,紧密相关的蛋白质设计领域最近通过深度学习的力量进入了一个新时代的发展。然而,现有的蛋白质设计机器学习(ML)模型在将非蛋白质实体纳入设计过程的能力方面受到了限制,仅处理蛋白质组分。在我们的最新预印本中,我们介绍了一个新的深度学习模型“CARBonAra”,该模型考虑了蛋白质周围的任何种类的分子环境,并且可以设计能够与任何种类的分子结合的蛋白质:药物样配体、辅因子、底物、核酸甚至其他蛋白质。通过利用我们先前的ML模型中的几何变换器架构,CARBonAra从主干支架预测蛋白质序列,同时知道任何性质的分子施加的约束。这种开创性的方法可以通过调整与任何种类的细胞组分的特定相互作用来扩展ML模型工程具有所需功能的蛋白质的多功能性。

方案概述这个新的深度学习模型可以做什么:从与绑定距离内的其他分子(这里用顶部的绿色分子举例)环绕的目标蛋白质骨架开始计算氨基酸概率,图片由作者制作。

引言

作为数据科学家,我们不断努力推动可能性的界限。蛋白质设计,即创建具有所需功能和属性的新蛋白质,是这样一个领域;特别是对于涉及生物学、医学、生物技术和材料科学等各个学科具有深远影响的领域。虽然基于物理的方法在寻找能折叠成给定蛋白质结构的氨基酸序列方面取得了进展,但深度学习技术已成为游戏变革者,显着提高了设计成功率和多功能性。

我最近在这里讨论了四种现代蛋白质设计和工程的ML模型:

总结四种关键方法的蛋白质设计的机器学习时代

由于这些基于人工智能的方法和工具,蛋白质生物技术的时代从未如此令人兴奋

towardsdatascience.com

虽然这些模型在许多蛋白质设计任务中取得了成功,但它们在设计过程中考虑非蛋白质实体的能力受到限制-它们根本无法处理它们,这种限制影响了它们的多功能性和范围。

为了克服这一挑战,我们在我们的最新预印本中提出了一个名为CARBonAra的新模型,通过接受作为输入的目标蛋白质支架和任何种类的相互作用分子,革命性地改变了蛋白质序列设计。这是预印本:

上下文感知的几何深度学习用于蛋白序列设计

蛋白质设计和工程正在以前所未有的速度发展,利用了深度学习的进步。目前…

www.biorxiv.org

CARBonAra建立在我们的蛋白质结构变换器(PeSTo)之上,这是一种几何变换器体系结构,它在处理分子时对原子类型不可知,并通过元素名称直接表示它们。我之前对PeSTo进行了更详细的描述:

新的预印本描述了一种新颖的无参数几何变换器,可以转换原子坐标…

它运行得如此之快,甚至可以扫描大量的蛋白质结构以搜索易于相互作用的氨基酸…

towardsdatascience.com

CARBonAra的核心是基于PeSTo模型,它可以将任何类型的非蛋白质分子(包括核酸、脂质、离子、小配体、辅因子或其他蛋白质)纳入到设计新蛋白质的过程中。因此,给定一个具有一个或多个在相互作用距离内的配体的输入蛋白质结构,CARBonAra从每个残基的氨基酸置信度中预测最大值,从中可以重构蛋白质序列。为此,CARBonAra以伴随非蛋白质分子的骨架为输入,并生成一个潜在序列空间,可以根据特定的功能或结构要求,如固定某些氨基酸(例如,如果它们已知对于特定功能是必要的),进一步限制该空间。CARBonAra通过考虑与感兴趣的蛋白质周围的分子环境提供了前所未有的灵活性和深度,这意味着它可以制作专门用于结合离子、底物、核酸、脂质、其他蛋白质等的区域。

在我们的评估中,CARBonAra与ProteinMPNN和ESM-IF1等最先进的方法表现相当,同时表现出类似的计算效率-都非常快。该模型实现了类似于ProteinMPNN和ESM-IF1的序列恢复率,用于设计蛋白质单体和蛋白质复合物,但除此之外,它还可以处理涉及非蛋白质分子的蛋白质设计,而其他方法甚至无法处理。

CARBonAra的一个显着特点是它能够通过纳入各种约束条件来定制序列以满足特定目标。例如,它可以优化序列身份,最小化相似性或实现低序列相似性。此外,通过利用来自分子动力学模拟的结构轨迹使用CARBonAra,我们观察到,我们可以提高序列恢复率,特别是在以前的方法显示成功率较低的情况下。

要了解更多关于该方法的信息,特别是有关ML体系结构的详细信息,请查看我们在bioRxiv上的预印本:

上下文感知的几何深度学习用于蛋白质序列设计

蛋白质设计和工程正在以前所未有的速度发展,利用深度学习的进步。目前…

www.biorxiv.org

超过一年的AlphaFold 2免费使用,以及它在生物学上引发的革命

自信地建模蛋白质结构,预测它们与其他生物分子的相互作用,甚至蛋白质…

小猪AI.com

通过共识方法创建的Web应用程序,用于设计稳定的蛋白质,使用JavaScript、ESMFold…

将现代技术和工具混合以进行高效工作,创建实现最简单但现今最…

javascript.plainenglish.io

“ML-Everything”?平衡科学中机器学习方法的数量和质量

需要适当的验证和好的数据集,客观和平衡,并且预测在现实中有用…

towardsdatascience.com

巨大的蛋白质语言模型如何颠覆结构生物学

具有与AlphaFold相似的准确性的结构预测,但速度高达60倍——并且已经开发出新的人工智能方法…

towardsdatascience.com

www.lucianoabriata.com 我写作并拍摄关于我广泛兴趣领域中的所有内容:自然,科学,技术,编程等。

在这里给我小费成为小猪AI会员以访问其所有故事(我会获得少量收入而不需要您支付费用)。订阅以通过电子邮件获取我的新故事在此处咨询有关小型工作。您可以在此处联系我