2023-01-28 1659文献解读
细胞类型鉴定是scRNA-seq分析中最重要的任务之一。2022年《Briefings in Bioinformatics》发表了一篇综述文章,使用不同组织、测序技术和物种的14个公共 scRNA-seq数据集研究了8种监督和10种非监督细胞类型识别方法的性能。
研究团队总共使用了14个不同组织、疾病、物种和技术的数据集,评估了18种流行的细胞类型识别方法,其中8种是监督的(CellAssign, Seurat v3 mapping, scmap-cluster, scmap-cell, singleR, CHETAH ,Garnett和SingleCellNet),10种是非监督的(Seurat v3 clustering, raceID3, LIGER, SC3, Monocle3, TSCAN,pcaReduce和 CIDR, SAME-clustering和 SHARP),评估了研究人员在实践中经常遇到的几种实验设置,包括不同数量的细胞、细胞类型的数量、测序深度、参考偏倚、数据集间批次效应、新的/未知的细胞类型、计算效率和可扩展性。尤其是分别评估了这些因素对训练和测试数据的影响(这在以前的测评中没有被调查过)。 为了在两类方法之间建立公平的比较,研究团队采用了 Adjusted Rand Index (ARI) 和BCubed-F1 score作为主要评估指标(这些指标专门用于聚类评估)。
13个数据集的ARI得分总体分布表明,监督方法通常优于无监督方法。进一步分析表明,这一表现取决于两个因素。第一个因素是集群的指定数量和真实数量之间的差异。差异越大,受监督的方法就越优于无监督的方法。
第二个因素是数据集的复杂性。如下图所示,当数据集复杂度较低时,有监督的方法显著优于无监督的方法(图左部分)。当数据集复杂度增加时(图右部分),表示两种方法ARI得分的点重叠得更多,表明性能更具可比性。
通过对不同数量的细胞、细胞类型的数量、测序深度、参考偏倚、数据集间批次效应、新的/未知的细胞类型、计算效率和可扩展性等因素的综合评估,以及在大型数据集上的测试,研究团队得出如下结论:
在不同的影响因素(包括细胞数量、测序深度、批次效应、细胞类型数量、参考偏差和细胞群体失衡)下,监督方法通常比无监督方法表现更好。总体上性能最好的监督和非监督方法是Seurat v3 mapping/singleR和Seurat v3 clustering。
无监督方法更善于识别未知/新的细胞类型,通常比有监督方法具有更好的计算效率。SC3是识别未知/新细胞的总体最佳方法,SHARP是最佳计算效率和可扩展性的方法。
随着数据集复杂性和参考偏差的增加,监督方法优于非监督方法的性能可能会降低或逆转。
对于监督方法,以下因素导致了更好的预测结果:更多的训练细胞、更少的细胞类型、更深的测序、训练和测试数据之间更相似的细胞类型比例、更平衡的训练细胞类型比例和更少的偏误参考。
对于无监督方法,以下因素导致了更好的预测结果:更深的测序,更少的细胞类型,真实和估计的聚类数量之间的差异更小。
在有监督和无监督的方法中,计算批量效应去除都是不必要的。事实上,在某些情况下,去除批次效应可能会导致更差的结果。数据复杂性在所有场景中都发挥了巨大作用。细胞类型之间更强的相似性(通常发生在亚细胞类型分类中)导致更高的复杂性,这需要更大的训练数据和更深入的测序才能获得令人满意的结果。重要的是,这些结论可以推广到具有来自各种细胞类型的超过10万个细胞的超大数据集。
本文中所涉及的所有源代码均可在如下链接获取:https://github.com/xsun28/scRNAIdent
参考文献Xiaobo Sun, Xiaochu Lin, Ziyi Li, Hao Wu, A comprehensive comparison of supervised and unsupervised methods for cell type identification in single-cell RNA-seq, Briefings in Bioinformatics, Volume 23, Issue 2, March 2022, bbab567, https://doi.org/10.1093/bib/bbab567