2024-01-29 1182文献解读
单细胞数据低维嵌入是分解细胞异质性和重建细胞类型特异性基因调控程序所必需的。然而,传统的降维技术在计算效率和全面解决不同分子模式的细胞多样性方面面临挑战。2024年1月,《Nature Methods》发表了一种非线性降维算法——SnapATAC2,不仅实现了对单细胞组学数据异构性的更精确捕获,而且还确保了高效的运行时间和内存使用,随细胞数线性扩展。
SnapATAC2是一种非线性降维算法,该算法在从广泛的单细胞组学数据类型中辨别复杂组织的细胞组成时,既能提高计算效率,又能保证准确性。其关键创新点是使用无矩阵光谱嵌入算法将单细胞组学数据投射到低维空间,从而保留了基础数据的固有几何特性。传统的光谱嵌入方法需要构建图拉普拉斯矩阵,这一过程所需的存储空间与细胞数量成二次方增长。
为了评估SnapATAC2的准确性和实用性,开发团队使用各种数据集进行了广泛的基准测试,这些数据集包括不同的实验方案、物种和组织类型。结果表明,在解决细胞异质性方面,无矩阵谱嵌入算法在速度、可扩展性和精度方面优于现有方法。此外,SnapATAC2可以扩展到单细胞组学数据集的不同分子模式,通过利用不同单细胞组组学数据类型的互补信息来揭示细胞异质性。
运行时间:随着数据集中细胞数量的增加,SnapATAC2 以及 ArchR、Signac 和 EpiScanpy 的运行时间增加最少;
内存效率:仅需要21GB内存即可处理200,000个细胞;
计算成本:在92个scATAC-seq样本、约650,000个细胞、超过230亿条原始读数,总数据量为1.6TB的数据规模下,SnapATAC2的速度比ArchR快近三倍,计算成本大约降低了 63.4%。
SnapATAC2 在不同的测序深度上始终优于其他方法,获得了最高的ARI分数;SnapATAC2 在所有检查的噪声水平上均获得了完美的 ARI 分数 (1.0)。
平均而言,SnapATAC2在所有10个数据集中获得了最高的bio-conservation scores,其次是PeakVI、cisTopic 和 scBasset。除了在细胞类型识别方面表现出色之外,SnapATAC2 还具有优于其他高性能方法的优势:SnapATAC2无需GPU等专用硬件即可运行,所需的计算时间大幅减少,在不同数据集上保持稳健的性能,且无需进行大量的超参数调整。
SnapATAC2是一种通用且有效的方法,可用于分析各种单细胞数据类型,包括scATAC-seq、scHi-C、scRNA-seq和单细胞DNA甲基化数据。其展示了与现有方法相当或更好的性能,同时提供了实际优势,例如减少运行时常和不需要专门的硬件。
多组学数据结果验证了SnapATAC2 不仅在bio-conservation quality方面,而且在计算效率方面的卓越性能,使其成为分析复杂单细胞多组学数据的高度稳健和可扩展的解决方案。
SnapATAC2 的源代码可通过如下链接获取:https://github.com/kaizhang/SnapATAC2/
本研究中用于重现基准测试的源代码可通过如下链接获取:https://github.com/kaizhang/single-cell-benchmark/
参考文献:Zhang, K., Zemke, N.R., Armand, E.J. et al. A fast, scalable and versatile tool for analysis of single-cell omics data. Nat Methods (2024). https://doi.org/10.1038/s41592-023-02139-9