2024-03-04 4464文献解读
生成式预训练模型在多个领域都取得了显著的成功。2024年2月,《Nature Methods》发表单细胞生物学的基础模型 scGPT,该模型是基于跨越3300多万个细胞库的生成式预训练转换器。
开发团队通过对超过 3300 万个细胞进行预训练,提出了单细胞基础模型 scGPT,专为非序列 omics 数据建立了统一的生成预训练工作流程,并调整了转换器架构,以同时学习细胞和基因表征。此外,还提供了具有特定任务目标的微调流程,旨在促进预训练模型在一系列不同任务中的应用。
scGPT 模型通过三个关键方面展示了单细胞基础模型的变革潜力:首先scGPT 代表了一种大规模生成基础模型,能在各种下游任务中进行迁移学习;其次通过比较微调模型和原始预训练模型之间的基因嵌入和注意力权重,scGPT 揭示了细胞类型和扰动状态等各种条件下特有的基因-基因相互作用的宝贵生物学见解。第三此项研究的观察结果揭示了缩放效应:更大的预训练数据大小产生更好的预训练嵌入,并进一步提高下游任务的性能。
此项研究结果表明:scGPT 能有效地提炼出有关基因和细胞的关键生物学观点。通过对迁移学习的进一步调整,scGPT 可以得到优化,从而在各种下游应用中实现卓越的性能,包括细胞类型注释、多批次整合、多组学整合、扰动反应预测和基因网络推断等任务。
开发团队在不同的数据集上进行了大量的实验,以评估scGPT在细胞类型标注方面的性能:人类胰腺数据集中scGPT对于混淆矩阵显示的大多数细胞类型都达到了很高的精度;在多发性硬化症(MS)疾病数据集中经过微调的模型与原始研究提供的细胞类型注释具有很强的一致性;使用肿瘤浸润性骨髓数据对疾病类型进行泛化,scGPT在准确率、精密度、召回率和macro F1等所有分类指标上都持续优于其他方法。
scGPT在所有三个数据集上都获得了最高分。特别是,scGPT在预测扰动后的变化方面表现出色,始终比其他方法高出5-20%。同时scGPT还能够揭示扰动组合之间的关联和预测给定结果细胞状态的遗传扰动来源。
在多批次整合方面,开发团队将scGPT与三种流行的整合方法:scVI、Seurat和Harmony在多个数据集上进行了比较,scGPT在所有整合指标中都获得了具有竞争力的分数,并展示了生物信号的强保守性。
在多组学整合方面,开发团队将scGPT与两种最先进的方法scGLUE和Seurat (v.4)进行了比较:scGPT表现出优越的细胞类型聚类性能,并在不同的基准生物保护指标中表现出稳定性。
scGPT证明了其通过学习基因标记嵌入对功能相关基因进行分组和区分功能不同基因的能力和在捕获复杂的基因连接和揭示更广泛的生物学背景下的特定机制方面的卓越能力。除了使用基因嵌入进行数据集级基因网络推理外,scGPT注意力机制还使其能够捕获单细胞水平的基因间相互作用。
此外,开发团队探索了影响迁移学习过程的因素:随着预训练数据量的增加,微调模型的性能也在提高,这些结果表明存在缩放效应,即预处理数据量越大,预处理的嵌入效果越好,下游任务的性能也就越高;预训练中的细胞背景与目标数据集对齐的重要性,以便在下游任务中获得更好的结果。
未来,开发团队计划在更大规模、更多样化的数据集上进行预训练,包括多组学数据、空间组学数据和各种疾病情况。在预训练阶段纳入扰动和时间数据也很有意义,这将使模型能够学习因果关系,并推断基因和细胞如何对随时间发生的变化做出反应。同时致力于探索单细胞数据的情境指令学习。这涉及到开发技术,允许预训练的模型在零样本设置中理解和适应不同的任务和情境,而无需进行微调。通过让 scGPT 掌握不同分析的细微差别和具体要求,可以提高它在各种研究场景中的可用性和适用性。开发团队设想,预训练范式将很容易集成到单细胞研究中,并成为利用指数级增长的细胞图谱库中的现有知识进行新发现的基础。
scGPT的代码库可在如下链接获取:https://github.com/bowang-lab/scGPT
参考文献:
Cui, H., Wang, C., Maan, H. et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02201-0