多伦多大学的研究人员推出了scGPT:一种基于生成预训练Transformer的单细胞生物学基础模型,覆盖了超过3300万个细胞的存储库

Researchers at the University of Toronto have developed scGPT, a single-cell biology foundational model based on generative pre-training Transformer, which covers a repository of over 33 million cells.

自然语言处理和计算机视觉只是生成式预训练模型取得巨大成功的领域示例。特别是,在构建基础模型的可行策略中,将多样的大规模数据集与预训练的转换器相结合。该研究通过将语言与生物构造(其中文本构成基因,相应地表征单词和细胞)之间的联系联系起来,探讨了基础模型在细胞生物学和遗传学研究中进一步发展的可行性。研究人员一直致力于构建scGPT,这是一个基于生成式预训练变压器的单细胞生物学基础模型,跨越了超过一百万个细胞的存储库,使用不断增长的单细胞测序数据。结果显示,scGPT是一个预训练的生成式变压器,能够有效地提取与基因和细胞相关的重要生物学见解。通过以新的方式使用迁移学习,可以改进脚本以用于各种应用。这些挑战包括基因网络推断、遗传扰动预测和多批次整合。查看scGPT源代码。

通过促进对单个细胞类型的详细表征,增强对疾病发病机制的了解,单细胞RNA测序(scRNA-seq)为研究细胞异质性、追踪谱系、阐明病理机制和开发个体化治疗方法铺平了道路。

鉴于测序数据的指数增长,迫切需要创建能够有效利用、增强和适应这些新趋势的方法。基础模型的生成预训练是克服这一困难的有效策略。通过从大规模数据集中学习,生成预训练最近在各个领域取得了非凡的成功。常见用途包括自然语言生成和计算机视觉。这些基线模型,包括DALL-E2和GPT-4,都基于在大规模异构数据集上预训练转换器的原则,可以轻松适应特定的下游任务和场景。不仅如此,这些预训练的生成模型总是比它们的定制训练对应物表现更好。

研究人员借鉴了自监督预训练方法在语言模型中的应用方法,以改进对大量单细胞测序数据的建模。已经证明,自注意力转换器是一种对文本输入令牌进行建模的有用且高效的框架。

通过在一百万个细胞上进行生成预训练,这些科学家首次尝试构建一个名为scGPT的单细胞基础模型。他们提出了预训练大规模单细胞组学数据的新方法,解决了方法论和工程问题。他们采用了一个能够快速访问存储数百个数据集的内存数据结构,使其能够处理大量数据。他们修改了变压器的架构,同时学习细胞和基因的表示,并构建了一个适用于非连续组学数据的统一生成预训练方法。为了使预训练模型能够在各种下游任务中使用,他们还提供了具有任务特定目标的标准流程用于模型微调。

通过这三个组件,scGPT模型突出了单细胞基础概念的革命潜力。从scGPT开始,这是第一个支持将转移学习应用于各种下游活动的大规模生成基础模型。通过在细胞类型注释、基因扰动预测、批次校正和多组学整合方面实现了最先进的性能,他们证明了“通用预训练,按需微调”的方法的有效性,作为单细胞组学计算应用的通用解决方案。

特别是,scGPT是唯一能够将scATAC-seq数据和其他单细胞组学数据结合的基础模型。其次,scGPT通过比较精炼和原始预训练模型之间的基因嵌入和注意力权重,揭示了与特定条件下基因-基因相互作用相关的重要生物学见解。第三,结果显示了一个缩放定律:使用更多数据进行预训练阶段会得到更好的预训练嵌入,从而在下游任务中获得更高的性能。这一发现强调了基础模型随着越来越多的测序数据为研究界提供的可能性。根据这些结果,他们假设使用预训练的基础模型将显著增加我们对细胞生物学的认识,并为未来在该领域的发展奠定基础。公开发布scGPT模型和工作流程可以加强和加速这些领域以及相关领域的研究。

研究人员描述了这个脚本是一种新颖的生成式预训练基础模型,它使用预训练的转换器来理解大量的单细胞数据。自监督的预训练在chatGPT和GPT4等语言模型中已被证明是有效的。在单细胞研究中,他们使用相同的策略来解读复杂的生物学联系。为了更好地对细胞过程的不同方面进行建模,scGPT使用转换器同时学习基因和细胞嵌入。单细胞GPT(scGPT)通过使用转换器的注意机制,捕捉了单细胞水平上的基因-基因相互作用,增加了一种新的解释度。 

研究人员通过零样本学习和微调的场景进行了大量研究,证明了预训练的价值。训练好的模型已经是任何数据集的特征提取器。它展示了令人印象深刻的外推能力,在零样本研究中显示出大量的细胞聚类。此外,在scGPT中学到的基因网络与先前建立的功能关系具有高度一致性。我们相信该模型能够发现单细胞生物学中的相关发现,因为它捕捉到了基因之间的相互作用,并有效地反映了已知的生物信息。此外,通过一些微调,预训练模型学到的信息可以用于各种后续任务。优化后的scGPT模型在细胞类型注释、多批次和多组学集成等任务上经常击败从头开始训练的模型。这显示了预训练模型如何通过提高准确性和生物相关性来改善后续任务的效果。总体而言,这些测试证明了预训练在scGPT中的有用性,展示了它在泛化能力、捕捉基因网络和增强后续任务性能方面的能力。

关键特征

  • 通用策略允许使用单个模型进行细胞单细胞研究的综合多组学分析和扰动预测。
  • 我们可以使用学习到的注意力权重和基因嵌入来识别特定条件下的基因之间的相互作用。
  • 它发现了一个规模律,表明随着数据负荷的增加,模型性能不断改善。
  • scGPT模型动物园中现在有许多针对不同实体器官的预训练基础模型(参见github)和一个全面的泛癌模型。通过使用最佳初始模型作为起点,开始挖掘数据。

预训练预计将在包含多组学数据、空间组学和广泛的疾病状态的更大数据集上进行。如果在预训练阶段包括扰动和时间数据,模型可以学习因果关系,并估计基因和细胞随时间的响应。为了更好地理解和解释预训练模型的学习成果,最好在更广泛的生物学显著任务集上验证模型。此外,他们还希望研究适用于单细胞数据的上下文感知知识。预训练模型必须在零样本配置中理解并适应新的工作和环境,而无需额外的微调。通过教会它理解各种研究的细微差别和独特需求,他们可以提高scGPT在多个研究背景下的实用性和适用性。他们期望预训练范式能够在单细胞研究中得到简单实施,并为快速扩展的细胞图谱中积累的知识奠定基础。