2021-03-02 7242文献解读
scRNA-seq是一种流行且功能强大的技术,可分析大量单个细胞的整个转录组。然而对这些实验生成的大量数据的分析需要专门的统计和计算方法。
2020年12月,来自英国威康桑格研究所和澳大利亚墨尔本大学的研究团队在《Nature Protocols》杂志发表综述:scRNA-seq测序数据的计算分析指南,为分析scRNA-seq数据的实验者提供了实践指南,也为寻求开发新计算方法的生物信息学家提供了概述。
2016年该团队首次推出scRNA-seq数据计算分析的课程教材(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html),本次综述内容可作为其配套教材共同使用。
scRNA-seq分析的核心部分是表达矩阵,它代表了每个基因和细胞观察到的转录本数量。工作流程可以分为两个主要部分:1)表达矩阵的生成和2)表达矩阵的分析。
对于最常见的分析,研究团队列出了一些最流行的方法以及它们所依赖的理论框架。
分析scRNA-seq的第一步是排除不太可能代表完整的单个细胞的细胞barcode。最直接的方法是计算一个特定于数据集的阈值,或者如EmptyDrops,首先估计空孔或液滴中存在的RNA的背景水平,然后识别与背景显著偏离的细胞barcode。
上述方法均无法将完整的活细胞与受损或垂死的细胞区分开,所以还必须进行第二轮质控,考虑检测到的基因数量、线粒体基因组衍生的RNA比例和每个细胞未映射或多映射reads的比例。线粒体衍生基因比例高、检测到的基因数量少或未映射或多映射reads比例高的细胞往往是受损或垂死的细胞。
除了一些代表背景噪声的细胞barcode外,还有一种可能是细胞barcode对应多个细胞。通常情况下,约5%的细胞barcode都会标记多个细胞。
从测序实验中获得的有用reads在不同细胞之间会有所不同,必须对这种差异进行校正。对于scRNA-seq数据,这种影响是明显的,因为每个细胞的RNA数量可以由于细胞周期阶段和其他生物因素而显著变化,即使在同一细胞类型内也是如此。技术因素(如液滴大小不同)可能会进一步增加测序深度的差异性。
Scran软件包通过使用细胞池来估计size factor,比其他标准化方法对后续批次校正和差异表达分析效果更好。此外,低表达的基因可能与高表达的基因在响应不同的测序深度时表现不同。为了补偿这种行为,可以使用针对每个基因表达水平的归一化策略。例如,SCnorm可以用于低通量、高深度数据,sranctorm可以用于高通量、低深度数据。
与测序深度的差异类似,批次效应也是技术上的混杂因素。传统的校正方法,如ComBat,假设每个细胞的生物学条件是先验的,并利用这一信息,使用线性模型将生物效应和批量效应分开。然而,这种假设对于scRNA-seq数据往往是不合适的。mnnCorrect和Seurat的典型相关分析(CCA)是新开发的校正方法,这两种工具的主要区别在于mnnCorrect使用PCA从基因表达矩阵中去除批效应,而CCA将细胞投射到一个共同的基因相关空间中,并在该空间上执行校正。
已经开发了几种工具来 "插补 "在scRNA-seq数据中发现的零值,包括scImpute、DrImpute和SAVER。DrImpute和scImpute性能相似,而SAVER对数据的影响往往较小,产生的错误信号也少得多。其他工具,如使用扩散模型的MAGIC和使用自动编码器的scVI,应用平滑算法来减少噪声。随着可公开获得的单细胞图谱数量的增加,使用外部参照来填补缺失变得可行。例如SAVER-X和netNMF-sc能够合并来自其他来源的相关信息。插补有助于提高scRNA-seq数据的可视化,但插补数据中确定的任何结构或模式(如差异表达基因或轨迹)必须通过对预插补数据进行适当的统计检验进行验证。
如果样品中含有活跃循环的细胞,这可能导致生物混杂物,需要在下游分析中去除。另外,细胞周期的阶段可能与所调查的生物问题有关。在这两种情况下,有必要将细胞分配到其适当的细胞周期阶段。有两个广泛使用的工具用于识别细胞周期阶段:Cyclone和Seurat。Cyclone分析相对于彼此表达水平不同的基因对,将细胞分配到G1、S或G2/M。虽然无论如何归一化,Cyclone的准确率都很高,但它难以区分非周期细胞。Seurat根据G1/S和G2/M的已知标记物的平均归一化表达对细胞进行评分。此外,Seurat还提供了一个选项,只回归G1/S和G2/M细胞之间的差异,同时保留循环和非循环细胞之间的差异。如果对周期性和非周期性亚群之间的差异有兴趣,后一种情况很重要。
在一个scRNA-seq实验中,每个基因代表一个维度,因此,对于一个小鼠或人类数据集,将有大约20000个维度。高通量、基于液滴的方法可以识别多达5000个基因,而更敏感的方法可以检测两倍多的基因。
特征选择可以识别出相对于技术噪声而言具有最强生物信号的基因。通过将下游分析限制在信息量最大的基因上,减弱了维度的影响,减少了噪声,简化了分析。最广泛使用的特征选择策略是考虑高变异基因(即方差高于预期的基因)。Seurat等工具使用非参数方法,通过经验拟合方差和平均表达之间的关系来识别高度可变的基因。而对于罕见细胞类型中差异表达的基因,替代性指标如量化转录本不平等分布的Gini指数,可能更合适,如GiniClust方法旨在识别小细胞群。
减少表达矩阵高维度带来的负面影响的另一个策略是对缩小后的特征空间进行降维。有许多方法可供选择,但最常用的策略为主成分分析(PCA)。大多数scRNA-seq数据集是复杂的,它们的结构不能被两个或三个主成分所捕获。因此,可视化算法被用来创建一个二维图,从更多的重要成分总结scRNA-seq数据集。目前的最佳实践方法是UMAP,UMAP在很大程度上取代了t-SNE。t-SNE和UMAP的一个缺点是它们都需要一个用户定义的超参数,而结果可能对所选的值很敏感。
早在scRNA-seq出现之前,各种聚类方法就已经被开发出来,现有的工具是经典方法的应用。其中一个例子是广泛使用的k-means算法,它是SC3算法的基础。除了基本的k-means算法外,SC3还使用共识方法对多个聚类结果进行平均。另一个例子是用于网络聚类的Louvain算法,该算法在Phenograph中被成功地改编为单细胞数据集,随后被Seurat和scanpy采用。
轨迹推断方法将单细胞数据视为连续过程的一个个快照。这一过程通过最小化相邻细胞之间的转录改变构建细胞空间的转换路径。这些路径上的细胞排序由伪时间变量 (pseudotime variable)描述。
大多数工具采取两种方法之一。第一种方法是使用维度减少技术来识别细胞所在的低维 "manifold",并使用细胞-细胞图来描述manifold的拓扑结构。使用这种策略的流行方法包括Monocle5和DPT。第二种方法是使用无监督聚类对细胞进行分组,然后再将聚类连接起来,并将单个细胞投影到分支上。这种方法的例子包括TSCAN和Mpath。
外显子和内含子读数的相对丰度,代表拼接和未拼接的转录物,可以用来推断scRNA-seq实验中的时间动态。RNAvelocity和scVelo等工具可以推断每个基因在细胞采样时的表达量是增加还是减少。
差异表达(DE)对于scRNA-seq来说更具挑战性,因为不仅仅是比较每个基因的单一数值,而是可以比较表达水平的分布。另一个单细胞数据特有的挑战是,要比较的细胞组不是先验定义的。相反,通常是根据想要比较的表达水平来定义组。最近的一项比较得出结论,与特制方法相比,非参数Wilcoxon检验的表现非常好。在专门为scRNA-seq定制的方法中,MAST的性能最好。
随着scRNA-seq数据量的不断增加,一个重要的挑战是如何最好地合并数据集。当其中一个数据集非常大(例如细胞图谱)时,比较它们的策略特别有用。当给定一个或多个具有已知单元类型的数据集时,scmap会构建一个小索引。当给定一个新的查询数据集时,scmap可以根据转录概况快速确定新数据集的每个细胞在引用中最接近的细胞类型。此外,scmap可以预测参考文献中最近的单元,这意味着当为单元分配伪时间值而不是离散的簇标签时,可以使用scmap。
另一种方法MetaNeighbor,被设计用来测试细胞类型在多个scRNA序列数据集中是否一致。它通过计算跨数据集的细胞-细胞Spearman相关性来实现,允许MetaNeighbor验证细胞标签在多个实验中的可重复性。
计算性scRNA-seq分析是一个快速发展的领域。很可能在未来几年内会有新的分析工具,进一步扩大scRNA-seq的使用范围。此外,研究团队还希望能够改进提供综合工作流程的软件工具(如Seurat、scanpy和Bioconductor),使具有有限生物信息学专业知识的用户更容易获得分析结果。
参考文献
Andrews, T.S., Kiselev, V.Y., McCarthy, D. et al. Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data. Nat Protoc 16, 1–9 (2021).
图片均来源于参考文献,如有侵权请联系删除。