2020-07-31 5135文献解读
"遇到批次效应:做单细胞数据分析时,我们常常用到不同时期或不同测序平台的数据,即使是同样的细胞类型也可能不能聚类到一个细胞群中!"
精确的单细胞转录组(scRNA-seq)数据检索和注释需要:1. 克服数据集之间的批次效应;2. 跨物种、平台、具有高质量注释的scRNA-seq数据库。
近日,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)、北京大学生命科学学院生物信息中心(CBI)、蛋白质与植物基因研究国家重点实验室的研究团队在《Nature Communications》上发布了基于深度学习模型的scRNA-seq数据检索和注释的新方法Cell BLAST,以及具备高质量注释的scRNA-seq参考数据库ACA,为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源。
Cell BLAST使用对抗自编码器进行转录组数据降维,利用对抗学习策略来消除数据集间的批次效应。
通过收集大量已发表的单细胞转录组数据,研究团队建立了一个涵盖2,989,582个单细胞、8个物种、27个不同的组织器官的数据库:Animal Cell Atlas (ACA);同时,对ACA中的细胞注释进行了详细的整理,并使用Cell Ontology构建了一套结构化的细胞类型标注,用于统一不同数据集中的标注以及支持细胞类型的推断。
类比BLAST,Cell BLAST可以在参考数据集中检索与用户提供的query细胞最相似的细胞,并借助这些相似细胞在数据库中的注释信息,对query细胞的注释信息进行推断。
除了可以用于细胞类型鉴定,Cell BLAST能灵敏地发现参考数据集中不存在的、未知的细胞类型;研究团队用一系列造血干细胞分化的数据集验证了Cell BLAST还能用于注释连续细胞状态。
用户可以直接上传待注释的scRNA-seq数据,用ACA中的参考数据集进行细胞检索和自动注释。ACA中的数据集也可以在download页面下载。
👉 Cell BLAST访问地址:https://cblast.gao-lab.org/
如果由于机密性的原因不希望上传数据,或者更喜欢定制,平台也提供了Python软件包Cell BLAST,用户可以使用软件包在自定义的参考数据集上进行模型训练、检索和定制化分析。
👉 Python软件包Cell BLAST:https://github.com/gao-lab/Cell_BLAST
参考文献Cao, Z., Wei, L., Lu, S. et al. Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST. Nat Commun 11, 3458 (2020).
信息来源于“北大科研”公众号,图片来源于Cell BLAST官网和参考文献,如有侵权请联系删除。