AlphaFold:生物学领域50年来的一个重大挑战的解决方案
AlphaFold:解决生物学领域50年来的重大挑战的方案
2022年7月,我们发布了AlphaFold对几乎所有已知科学目录中的蛋白质结构预测。在此处阅读最新博客。
蛋白质对生命至关重要,支持几乎所有生命功能。它们是由氨基酸链组成的大型复杂分子,而蛋白质的功能在很大程度上取决于其独特的三维结构。 弄清楚蛋白质折叠成什么形状被称为“蛋白质折叠问题”,在过去50年里一直是生物学的一项重大挑战。我们的AI系统最新版本AlphaFold被生物蛋白质结构预测关键评估(CASP)的组织者认定为解决这一重大挑战的解决方案。这一突破展示了人工智能对科学发现的影响,以及它在解释和塑造我们世界的一些最基本领域中加速进展的潜力。
蛋白质的形状与其功能密切相关,预测蛋白质的结构可以更好地理解其功能和工作原理。世界上许多最大的挑战,如开发治疗疾病的方法或寻找分解工业废物的酶,都与蛋白质及其所扮演的角色密切相关。
我们在这个问题上已经卡住了近50年。看到DeepMind为这个问题提供了解决方案,我曾经亲自从事这个问题的研究很长时间,经历了很多起起落落,不知道我们是否能成功,这是一个非常特别的时刻。 – 约翰·莫尔特教授,CASP联合创始人和主席,马里兰大学
多年来,这一问题一直是密集的科学研究重点,使用各种实验技术来检查和确定蛋白质的结构,例如核磁共振和X射线晶体学。这些技术以及像冷冻电子显微镜这样的较新方法都依赖于广泛的试错,可能需要多年的艰苦工作来确定一个结构,并需要使用价值数百万美元的专门设备。
“蛋白质折叠问题”
在他1972年的诺贝尔化学奖颁奖词中,克里斯蒂安·安芬森著名地假设,从理论上讲,蛋白质的氨基酸序列应该完全确定其结构。这一假设引发了长达五十年的追求,即仅基于蛋白质的一维氨基酸序列,能够计算预测蛋白质的三维结构,作为一种替代昂贵且耗时的实验方法。然而,一个主要的挑战是蛋白质在最终确定其三维结构之前可能折叠的方式数量是天文数字。1969年,赛勒斯·莱文塔尔指出,使用蛮力计算列举出典型蛋白质的所有可能构型将需要超过已知宇宙的年龄的时间。莱文塔尔估计典型蛋白质可能存在10^300种构象。然而,在自然界中,蛋白质会自发地折叠,有些甚至在毫秒内完成,这种二者之间的差异有时被称为莱文塔尔的悖论。
CASP14评估结果
1994年,约翰·莫尔特教授和克日什托夫·菲德利斯教授创立了CASP作为一项每两年举行的盲目评估,以促进研究,监测进展,并确定蛋白质结构预测领域的最新技术。它既是评估预测技术的黄金标准,也是一个建立在共同努力基础上的独特全球社区。至关重要的是,CASP选择的蛋白质结构仅在最近被实验确定(有些在评估时仍在等待确定)时作为团队测试其结构预测方法的目标;它们不会提前公布。参与者必须盲目预测蛋白质的结构,并在实验数据可用时将这些预测与实际数据进行比较。我们对CASP的组织者和整个社区,尤其是那些实验者们的结构,使得这种严格评估成为可能,表示感谢。
CASP用于衡量预测准确性的主要指标是全局距离测试(GDT),其范围为0-100。简单来说,GDT可以近似地看作是蛋白质链中在阈值距离内的氨基酸残基(蛋白质链中的珠子)的百分比。根据莫尔特教授的说法,GDT约为90被非正式地认为与实验方法获得的结果具有竞争力。
在最新发布的第14届CASP评估结果中,我们的最新AlphaFold系统在所有目标上的中位数GDT得分为92.4。这意味着我们的预测平均误差(RMSD)约为1.6埃,与一个原子的宽度(或0.1纳米)相当。即使对于最具挑战性的蛋白质目标,即最具挑战性的自由建模类别,AlphaFold的中位数GDT得分也达到87.0(数据详见此处)。
这些令人兴奋的结果为生物学家在科学研究中使用计算结构预测作为核心工具打开了潜力。我们的方法可能特别有助于重要类别的蛋白质,例如膜蛋白,这些蛋白质很难结晶,因此难以通过实验确定。
这项计算工作代表了蛋白质折叠问题的惊人进展,这是生物学中一个有50年历史的重大挑战。它发生的时间比该领域的许多人预测的要早几十年。非常令人兴奋的是,它将以许多方式从根本上改变生物研究。- 诺贝尔奖获得者、英国皇家学会主席Venki Ramakrishnan教授
我们对蛋白质折叠问题的方法
我们在2018年首次参加CASP13时,使用了我们最初版本的AlphaFold,它在参与者中取得了最高的准确度。随后,我们发表了一篇关于CASP13方法的论文,并提供了相关代码,这篇论文已经激发了其他工作和社区开发的开源实现。现在,我们开发的新深度学习架构已经改变了我们在CASP14中的方法,使我们能够达到前所未有的准确度水平。这些方法从生物学、物理学和机器学习领域汲取灵感,当然也借鉴了过去半个世纪蛋白质折叠领域许多科学家的工作。
折叠蛋白质可以被看作是一个”空间图”,其中残基是节点,边连接着靠近的残基。这个图对于理解蛋白质内部的物理相互作用以及它们的进化历史非常重要。在CASP14中使用的最新版本AlphaFold是一个基于注意力机制的神经网络系统,端到端地进行训练,试图解释这个图的结构,并在构建的隐含图上进行推理。它使用进化相关的序列、多序列比对(MSA)和氨基酸残基对的表示来优化这个图。
通过迭代这个过程,该系统可以强力地预测蛋白质的物理结构,并能够在几天内确定高度准确的结构。此外,AlphaFold可以使用内部置信度度量来预测每个预测蛋白质结构的可靠部分。
我们使用公开可用的数据对该系统进行训练,包括来自蛋白质数据库的约170,000个蛋白质结构以及包含未知结构的蛋白质序列的大型数据库。它使用了大约16个TPUv3(相当于128个TPUv3核心,或者大约100-200个GPU)在几周内运行,相对于当今大多数机器学习中使用的大型先进模型来说,这是一个相对较小的计算量。与我们的CASP13 AlphaFold系统一样,我们正在准备一篇关于我们的系统的论文,将在适当的时候提交给同行评议的期刊。
对现实世界影响的潜力
当DeepMind在十年前成立时,我们希望AI的突破将有助于推动我们对基础科学问题的理解。现在,经过4年的努力构建AlphaFold,我们开始看到这一愿景的实现,对药物设计和环境可持续性等领域具有重要意义。
德国马克斯·普朗克发展生物学研究所所长、CASP评估员安德烈·卢帕斯教授告诉我们:“AlphaFold令人惊讶的准确模型使我们能够解决一个我们苦苦挣扎了近十年的蛋白质结构问题,重新启动了我们对细胞膜信号传递机制的研究。”
我们对AlphaFold在生物研究和更广泛的世界中的影响持乐观态度,并且很高兴与其他人合作,以进一步了解其未来几年的潜力。除了正在撰写同行评审的论文之外,我们还在探索如何以可扩展的方式为更多人提供使用该系统的途径。
与此同时,我们也正在研究蛋白质结构预测如何对我们对特定疾病的理解做出贡献,例如通过帮助识别发生功能失调的蛋白质并推断它们的相互作用方式。这些洞察力可以加强药物研发的精确性,为寻找有希望的治疗方法提供了一种补充,同时与现有的实验方法相辅相成,使其更快找到。
AlphaFold是一次千载难逢的进步,以令人难以置信的速度和精确性预测蛋白质结构。这一飞跃表明计算方法正处于改变生物学研究的前沿,并对加速药物发现过程充满希望。- Arthur D. Levinson, PhD, Calico创始人兼首席执行官,前Genentech董事长兼首席执行官
我们还看到蛋白质结构预测在未来的疫情应对工作中可能有用,作为科学界开发的众多工具之一。今年早些时候,我们预测了多种SARS-CoV-2病毒蛋白质的结构,包括之前未知的ORF3a。在CASP14中,我们预测了另一种冠状病毒蛋白质ORF8的结构。实验者们迅速而令人印象深刻地证实了ORF3a和ORF8的结构。尽管它们的特性具有挑战性,并且与其他相关序列非常少,但与实验确定的结构相比,我们的两个预测在准确性上都达到了很高的水平。
除了加速对已知疾病的理解外,我们对这些技术在探索目前没有模型的数亿种蛋白质的潜力感到兴奋-这是一个未知生物学的广阔领域。由于DNA指定了构成蛋白质结构的氨基酸序列,基因组革命使得从自然界中以大规模读取蛋白质序列成为可能-在通用蛋白质数据库(UniProt)中已经有1.8亿个蛋白质序列,并且还在不断增长。相比之下,鉴于从序列到结构需要的实验工作,蛋白质数据银行(PDB)中只有约17万个蛋白质结构。在这些未确定的蛋白质中,可能有一些具有新颖和令人兴奋的功能-正如望远镜帮助我们深入了解未知宇宙一样,AlphaFold等技术可能帮助我们找到它们。
开启新的可能性
AlphaFold是迄今为止我们最重要的进展之一,但与所有科学研究一样,仍有许多问题需要回答。我们预测的结构不一定都是完美的。仍然有很多需要学习的地方,包括多个蛋白质如何形成复合物,它们如何与DNA、RNA或小分子相互作用,以及我们如何确定所有氨基酸侧链的精确位置。与其他人合作,我们还有很多要学习的东西,包括如何最好地利用这些科学发现来开发新药物、管理环境等方面。
对我们所有从事科学中计算和机器学习方法的人来说,AlphaFold等系统展示了人工智能作为辅助基础性发现的惊人潜力。就像50年前安芬森提出了一个当时超出科学能力范围的挑战一样,我们宇宙中仍有许多未知之处。今天宣布的进展进一步增强了我们对人工智能将成为拓展科学知识前沿的最有用工具之一的信心,我们期待着未来多年的辛勤工作和发现!