基因AI针对基因组:LLM预测COVID变种的特征

基因AI运用基因组学技术预测COVID变种的LLM特征' (Gene AI Utilizes Genomic Techniques to Predict Features of COVID Variants LLM Analysis)

被广泛赞誉的大型基因组数据语言模型证明了它生成的基因序列与实际的SARS-CoV-2变异体,即COVID-19病毒背后的变异体,非常相似。

称为GenSLMs的模型去年因基于高性能计算的COVID-19研究而赢得了Gordon Bell特别奖,该模型在DNA和RNA的核苷酸序列数据集上进行训练。它是由阿贡国家实验室、NVIDIA、芝加哥大学和其他许多学术和商业合作伙伴的研究人员开发的。

研究人员回顾了GenSLMs生成的核苷酸序列,发现人工智能生成的序列的特定特征与今年流行的Eris和Pirola亚变异体非常相似,尽管该人工智能只是在训练时使用了疫情第一年的COVID-19病毒基因组。

“我们模型的生成过程非常简单,缺乏关于新的COVID变异体应该是什么样的具体信息或约束条件,”该项目的首席研究员、阿贡国家实验室的计算生物学家Arvind Ramanathan说道。“人工智能能够预测最近COVID毒株中存在的基因突变类型,尽管它仅在训练期间见过Alpha和Beta变异体,这证明了它的能力。”

除了生成自己的序列,GenSLMs还可以通过区分不同的COVID基因组序列来对其进行分类和聚类。在即将到来的NVIDIA加速软件中心(NGC)演示中,用户可以探索GenSLMs对COVID病毒基因组中各种蛋白质的进化模式进行分析的可视化效果。

 

阅读行文之间,揭示进化模式

GenSLMs的一个关键特点是它能够像LSTM对英文文本的解释一样解释由核苷酸长字符串组成的序列——DNA中的A、T、G和C,或者RNA中的A、U、G和C。这种能力使得该模型能够理解基因组中不同区域之间的关系,在冠状病毒中,基因组通常由大约30,000个核苷酸组成。

在演示中,用户将能够从八个不同的COVID变异体中选择,以了解AI模型如何追踪病毒基因组各个蛋白质的突变。可视化效果描绘了病毒蛋白质之间的进化关联,突出显示了在特定变异体中可能看到的基因组片段。

“了解基因组的不同部分是如何共同进化的,可以为我们提供关于病毒可能如何产生新的易感性或新形式的抵抗力的线索,”Ramanathan说。“观察模型对特定变异体中哪些突变特别强大的理解,可以帮助科学家解决下游任务,比如确定特定毒株如何逃避人类免疫系统。”

 

GenSLMs是通过对超过1.1亿个原核基因组序列进行训练,并利用来自细菌和病毒生物信息学资源中心的开源数据对大约150万个COVID病毒序列进行微调的。将来,该模型可以对其他病毒或细菌的基因组进行微调,以实现新的研究应用。

为了训练这个模型,研究人员使用了NVIDIA A100 Tensor Core GPU加速的超级计算机,包括阿贡国家实验室的Polaris系统、美国能源部的Perlmutter和NVIDIA的Selene。

GenSLMs研究团队的Gordon Bell特别奖是在去年的SC22超级计算会议上获得的。在本周的SC23上,NVIDIA正在分享该领域加速计算的一系列具有突破性的工作。请查看完整的日程安排,并观看NVIDIA的特别演讲的重播。

NVIDIA研究机构拥有全球数百名科学家和工程师,团队专注于人工智能、计算机图形学、计算机视觉、自动驾驶和机器人等领域。了解更多关于NVIDIA研究并订阅NVIDIA医疗新闻

主图由Argonne National Laboratory的Bharat Kale提供。

本研究得到了超级计算项目(17-SC-20-SC)的支持,该项目是美国能源部科学办公室和国家核安全局的合作项目。该研究得到了能源部通过国家虚拟生物技术实验室的支持,该实验室是一个由能源部国家实验室组成的应对COVID-19的联合体,其资金来自冠状病毒援助法案。