这个基于人工智能的蛋白质语言模型可以解锁通用序列建模能力

This AI-based protein language model unlocks universal sequence modeling capabilities.

人们研究生命语言的方式已经从比较自然语言的句法-语义和蛋白质的序列功能的角度发生了根本性的变化。尽管这种比较在历史上被视为一个里程碑,有助于改进自然语言处理在蛋白质领域的应用(如语言模型),但是自然语言处理领域的结果并不能完全转化为蛋白质语言。除了扩大自然语言处理模型的规模之外,扩大蛋白质语言模型的规模可能会产生比扩大自然语言处理模型规模更大的影响。

观察到训练了大量参数并经过大量训练步骤的语言模型仍然具有明显的学习梯度,因此被视为欠拟合,这倾向于鼓励模型大小与其学习表示的丰富程度之间的比例关系-虚假的。因此,选择更准确或相关的蛋白质表示逐渐变成了选择更大的模型,这需要更多的计算能力,因此难以获得。值得注意的是,最近PLM的规模从106增加到了109个参数。他们基于ProtTrans的ProtT5-XL-U50进行大小-性能基准测试,ProtTrans是一个在UniRef50数据库上进行预训练的编码器-解码器变压器,其参数为3B(用于训练)和1.5B(用于推理),从历史上揭示了蛋白质语言模型的最新技术水平(SOTA)。

为了开发蛋白质序列建模的扩展原则,RITA系列语言模型是朝这个方向迈出的第一步,它展示了模型的性能如何随着其大小的变化而变化。RITA提供了四种不同的模型,其大小从85M增加到300M、680M、1.2B个参数。类似的模式后来被ProGen2证实,ProGen2是一组在各种测序数据集上训练的蛋白质语言模型,包括6.4B个参数。最后,截至本研究发表时,ESM-2是一项关于通用蛋白质语言模型的调查,类似地显示了模型大小与性能的比例关系,从650M增加到3B到15B个参数,它是鼓励模型扩大的最新补充。

较大和表面上更好的PLM之间的简单关系忽略了多个因素,包括计算成本和任务不可知模型的设计和部署。这增加了创新研究的准入门槛,并限制了其扩展能力。尽管模型的大小无疑会影响实现上述目标,但它并不是唯一的影响因素。同样,朝着同样的方式扩大预训练数据集是有条件的,即较大的数据集并不总是优于更高质量的较小数据集。他们认为,扩大语言模型是有条件的,并且在优化的指导下以蛋白质知识的方式继续进行(即更大的模型不一定比蛋白质知识更小的模型更好)。

本研究的主要目标是将知识引导的优化纳入一个迭代的经验框架中,通过实际资源鼓励对研究创新的访问。因为他们的模型通过学习更好的“字母”(氨基酸)表示来“解锁”生命的语言,所以他们将项目命名为“Ankh”(这是对生命之钥的古埃及符号的参考)。这进一步发展为两个用于评估Ankh的普遍性和优化的证据。

通过一项基于高N(基于家族的)和一N(基于单个序列的)应用的蛋白质工程的世代研究,其中N是输入序列的数量,是超越各种结构和功能基准测试SOTA性能的第一步。第二步是通过对包括模型架构在内的最佳属性进行调查,包括用于模型的创建、训练和部署的软件和硬件。根据应用的需求,他们提供了两个预训练模型,称为Ankh big和Ankh base,每个模型提供两种计算方式。出于方便起见,他们称他们的旗舰模型Ankh big为Ankh。预训练模型可以在他们的GitHub页面上获得。页面上还有如何运行代码库的详细信息。