AI系统可以生成符合结构设计目标的新型蛋白质
这些可调蛋白质可以用来创建具有特定机械性能的新材料,如韧性或柔韧性

麻省理工学院的研究人员正在使用人工智能设计新的蛋白质,超越自然界中已有的蛋白质。
他们开发了机器学习算法,可以生成具有特定结构特征的蛋白质,这些蛋白质可用于制造具有特定机械性能(如刚度或弹性)的材料。这种生物启发式材料有望取代石油或陶瓷制成的材料,但碳足迹要小得多。
麻省理工学院、麻省理工-IBM沃森人工智能实验室和塔夫茨大学的研究人员采用了一种生成模型,这种模型与DALL-E 2等AI系统中使用的机器学习模型架构相同。但是,他们改编了模型架构,使其能够预测实现特定结构目标的蛋白质的氨基酸序列。
今天在《化学》杂志上发表的一篇论文中,研究人员展示了这些模型如何生成逼真而又新颖的蛋白质。这些模型可以学习控制蛋白质形成的生化关系,可以产生能够实现独特应用的新蛋白质,该研究的高级作者Markus Buehler表示,他是Jerry McAfee工程教授、土木与环境工程和机械工程教授,也是麻省理工-IBM沃森人工智能实验室的成员。
例如,这个工具可以用来开发以蛋白质为灵感的食品涂层,这些涂层可以让农产品保持新鲜更长时间,同时对人类安全。他补充说,这些模型可以在几天内生成数百万个蛋白质,迅速为科学家提供新的探索思路组合。
“当你考虑设计自然界尚未发现的蛋白质时,这是一个巨大的设计空间,你不能只用纸和笔来解决。你必须弄清楚生命的语言,氨基酸是如何由DNA编码然后组合成蛋白质结构的。在我们拥有深度学习之前,我们真的做不到这一点,”Buehler说,他也是麻省理工-IBM沃森人工智能实验室的成员。
除了Buehler之外,文章的作者还包括Bo Ni,他是Buehler原子分子力学实验室的博士后,以及塔夫茨大学的Stern家族工程教授和生物工程教授David Kaplan。
为任务调整新工具
蛋白质是由氨基酸链折叠成3D模式形成的。氨基酸序列决定了蛋白质的机械性能。虽然科学家已经确定了数千种通过进化创造的蛋白质,但他们估计还有大量的氨基酸序列尚未被发现。
为了简化蛋白质的发现,研究人员最近开发了深度学习模型,可以预测一组氨基酸序列的蛋白质的3D结构。但是,预测满足设计目标的氨基酸序列的逆问题更加具有挑战性。
机器学习的新进展使Buehler和他的同事能够解决这个棘手的问题:基于注意力扩散模型。
注意力模型可以学习非常远程的关系,这对于开发蛋白质非常关键,因为长氨基酸序列中的一个突变可以使整个设计成败。扩散模型通过将噪声添加到训练数据中,然后学习通过去除噪声来恢复数据的过程来学习生成新数据。它们通常比其他模型更有效地生成高质量、逼真的数据,可以被调节以满足一组目标对象来满足设计需求。
研究人员使用这种模型构建了两个机器学习模型,可以预测各种新的氨基酸序列,这些序列形成满足结构设计目标的蛋白质。
“在生物医药行业中,您可能不希望完全不知道的蛋白质,因为那样您就不知道它的性质。但在某些应用中,您可能需要与自然中发现的蛋白质类似但具有不同功能的全新蛋白质。我们可以使用这些模型生成一系列我们通过调节某些旋钮来控制的光谱,”Buehler说。
氨基酸的常见折叠模式,称为二级结构,产生不同的机械性能。例如,具有α螺旋结构的蛋白质会产生具有弹性的材料,而具有β折叠结构的蛋白质会产生刚性材料。结合α螺旋和β折叠可以创建既具有弹性又强度的材料,例如丝绸。
研究人员开发了两个模型,一个在蛋白质的整体结构属性上运作,另一个在氨基酸水平上运作。这两个模型都通过组合这些氨基酸结构来生成蛋白质。对于操作整体结构属性的模型,用户输入所需不同结构的百分比(例如40%α螺旋和60%β折叠)。然后该模型生成符合这些目标的序列。对于第二个模型,科学家还指定了氨基酸结构的顺序,这给予了更细粒度的控制。
这些模型与预测蛋白质折叠的算法相连,研究人员用它来确定蛋白质的三维结构。然后他们计算其产生的属性并将其与设计规格进行核对。
现实而新颖的设计
他们通过将新蛋白质与具有类似结构特性的已知蛋白质进行比较来测试他们的模型。在大多数情况下,有些与现有氨基酸序列重叠,大约在50%至60%之间,但也有一些全新的序列。Buehler补充说,相似度水平表明,许多生成的蛋白质是可合成的。
为确保预测的蛋白质是合理的,研究人员尝试通过输入物理上不可能的设计目标来欺骗模型。他们惊讶地发现,模型并没有产生不可能的蛋白质,而是生成了最接近可合成解决方案。
Ni说:“学习算法可以捕捉到自然界中的隐藏关系。这使我们有信心说,我们模型生成的任何东西都很可能是现实的。”
接下来,研究人员计划通过在实验室中制造它们来实验验证一些新的蛋白质设计。他们还希望继续增强和完善模型,以便开发满足更多条件的氨基酸序列,例如生物学功能等。
Buehler说:“对于我们感兴趣的应用,如可持续性、医学、食品、健康和材料设计,我们需要超越自然所做的。这是一种新的设计工具,我们可以使用它来创建潜在的解决方案,可能有助于解决我们面临的一些重要社会问题。”
“除了在生命细胞中的自然角色外,蛋白质在越来越多的技术应用中扮演着关键角色,从生物学药物到功能材料。在这种情况下,一个关键的挑战是为特定应用设计具有所需属性的蛋白质序列。包括利用扩散模型的生成机器学习方法最近在这个领域中出现并成为强大的工具,”剑桥大学物理化学和生物物理学教授Tuomas Knowles说。他没有参与这项研究。“Buehler和他的同事通过提供一种设计方法,允许定制所设计蛋白质的二级结构,在这个领域实现了重大进展。这是一项令人兴奋的进展,对许多潜在领域都有影响,包括为功能材料设计构建基块,其属性受二级结构元素的支配。”
“这项研究非常有趣,因为它研究了大部分不存在的新蛋白质的特性,但是从力学角度考虑了它们的特性,”卡内基梅隆大学机械工程的William J. Brown教授Philip LeDuc说。他也没有参与这项工作。“我个人对创造尚未想象的具有功能的分子的想法着迷。这是朝着这个方向的巨大一步。”
这项研究得到了MIT-IBM Watson AI实验室、美国农业部、美国能源部、陆军研究办公室、美国国立卫生研究院和海军研究办公室的部分支持。


