EpiScanpy:一个用于分析单细胞表观基因组数据的工具包

2021-10-14 1526文献解读

表观遗传学单细胞检测正在成为主流,其产生的数据代表了位于基因组和转录组之间的一个丰富的调控信息层,需要新的分析方法来利用它。近日,来自德国研究人员在《Nature Communications》发表了一个用于分析单细胞表观基因组数据的工具包:EpiScanpy。

EpiScanpy-1.png

EpiScanpy是什么?

EpiScanpy是一种用于分析单细胞表观基因组数据的快速且通用的工具,由于它嵌入了scanpy平台,其为分析单细胞DNA甲基化和scATAC-seq数据以及scRNA-seq数据提供了通用框架。EpiScanpy灵活的数据结构可以处理其他新类型的单细胞组学数据,如Hi-C或NOME-seq以及其他单细胞多组学数据。EpiScanpy不仅可以执行基于表观基因组特征的常见分析,如低维数据可视化、聚类、轨迹推断和差异调用,还具有一系列实用的下游功能,如将感兴趣的表观基因组特征映射到最近的基因,或基于启动子开放性构建基因活性矩阵。EpiScanpy包括一个atlas比较工具,可有效集成不同实验室和/或使用不同平台生成的scATAC-seq数据集。

单细胞DNA甲基化和scATAC-seq数据的聚类、可视化、细胞类型注释。

EpiScanpy-2.png

特征空间和数据预处理:根据.bam文件(scATAC-seq)或甲基化计数文件(单细胞DNA甲基化),EpiScanpy通过量化每个特征中的开放性或DNA甲基化水平,为任何感兴趣的基因组特征生成计数矩阵。在构建计数矩阵后,EpiScanpy继续进行质量控制和数据预处理。

单细胞表观基因组学数据的分析方法:在构建计数矩阵之后,EpiScanpy采用了单细胞数据中常用的分析方法。特别是,为了利用基于K近邻算法(kNN),研究团队实现了基于表观遗传特征的细胞-细胞距离指标。为了评估数据中存在的全局异质性,EpiScanpye使用无监督(或流形)学习算法,如tSNE, UMAP, graph abstraction, Louvain clustering或diffusion pseudotime。为了探索dataset artefacts(如覆盖率)和观察到的变异之间不必要的相关性,EpiScanpye允许检查任何细胞协变量和主成分之间的关系,然后用EpiScanpye函数将发现的技术变异来源回归出来。研究团队还提供了一个函数,用于根据轮廓系数或调兰德指数(ARI)优化Louvain clustering所用的分析参数。最后,为了确定细胞类型,EpiScanpye包括差异甲基化和差异开放染色质调用策略,能够根据基因组特征(如峰值、基因、启动子或其他调控元件)在发现的细胞特性中的相关性对其进行排序。为了便于细胞类型注释,EpiScanpye还包括将任何感兴趣的表观基因组特征分配给其最近的基因或从另一个单细胞数据对象分配给其最近的特征的功能。借助singlecellVR的虚拟现实界面,还可以实现EpiScanpye结果的虚拟现实可视化。

EpiScanpy的应用

研究团队使用公开的scATAC-seq和单细胞DNA甲基化数据集举例说明了EpiScanpy的功能,并将EpiScanpy与其他scATAC-seq分析工具进行了对比,显示了其在区分细胞类型方面的优越性。

EpiScanpy-3.png

scATAC-seq数据的整合、基于分区的图抽象(PAGA)、扩散伪时间分析。

EpiScanpy-4.png

细胞聚类性能的基准测试:研究团队将EpiScanpy辨别细胞类型的能力与其他11种scATAC-seq数据分析工具进行了比较,在所有测试数据集中EpiScanpye的得分处于前列。

此外,EpiScanpy的一个重要特点是它能够在非常有竞争力的运行时间内扩展到大型数据集。例如,分析Cusanovich等人的整个小鼠scATAC-seq图谱,包括81,173个细胞,仅需18.19分钟的运行时间,使用14.19GB的内存。

EpiScanpy在所有数据集的内存消耗方面一直表现出色,在较小的数据集的运行时间方面表现相当,而在较大的数据集上则表现出色。

EpiScanpy-5.png

EpiScanpy是唯一可以为scATAC-seq数据、单细胞DNA甲基化数据以及scRNA-seq数据(通过scanpy)提供所有分析选项的工具;由于它建立在scanpy之上,它使得为scRNA-seq开发的机器学习方法的全部model-zoo可以用于单细胞表观基因组学数据。  

EpiScanpy可通过Github获取:https://github.com/colomemaria/epiScanpy

文档链接:https://colomemaria.github.io/episcanpy_doc

用于数据分析和基准测试的所有代码可在如下链接获取:https://github.com/colomemaria/episcanpy-paper

参考文献
Danese, A., Richter, M.L., Chaichoompu, K. et al. EpiScanpy: integrated single-cell epigenomic analysis. Nat Commun 12, 5228 (2021).
图片来源于NC官网和参考文献,如有侵权请联系删除。

上一篇下一篇