NC | DNA甲基化去卷积方法的基准测试

2024-08-19 62文献解读

定义组织中不同细胞类型的数量和丰度对于理解疾病机制以及诊断和预后目的非常重要。一般通过免疫组织学分析、细胞分选或单细胞转录组测序来实现的。或者利用细胞特异性DNA 甲基化组信息从大量DNA混合物中解卷积细胞组分。然而,尚未对去卷积方法和模式进行全面的基准测试。2024年5月,《Nature Communications》发表综述评估了16种去卷积算法。

16种去卷积算法-1.png

在基准测试中,研究团队选择了16种常用或最新开发的方法:BVLS,弹性网络回归(Elastic net regression),EMeth-Binomial,EMeth-Laplace,EMeth-Normal,EpiDISH,Lasso, Meth atlas, MethylResolver, Minfi, NNLS, OLS, 岭回归(Ridge regression),FARDEEP,ICeDT和DCQ。通过计算去卷积比例和实际比例之间的准确度来测试每个算法归一化组合的性能。

16种去卷积算法-2.png

在基于芯片和测序的DNA甲基化图谱上应用和测试了不同方法,还评估了可能影响去卷积性能的其他变量的影响,包括细胞分数、标记选择方法、用于构建参考的标记数量、技术变异性的影响以及测序的深度和均匀性。

16种去卷积算法-3.png

整体性能最佳的算法:EpiDISH。

归一化很少对去卷积产生积极影响,大部分算法在没有额外归一化的情况下都能达到最佳性能。

任何给定细胞类型可用于选择的特异性标记 CpGs 都较少。虽然在对不同细胞类型进行解卷积时,这并不是一个问题,但对于更相似的细胞类型,如自然杀伤细胞和 CD8+ T 细胞,具有高度鉴别性的标记 CpGs 就比较少了。

另一个去卷积变量是标记位点的数量。研究团队观察到,对于六种细胞类型的去卷积,将这个数字从5增加到100会导致越来越准确的预测,而进一步增加到100个以上的标记CpG大多只产生测试算法的边际增益。这可能是由于在标记选择步骤处的过拟合,并且应当注意,当对可变数量的细胞类型或具有不同相似性的细胞类型进行去卷积时,该最佳值可能不同。

还应考虑reference的完整性,因为过度广泛和不完整的reference都会对去卷积性能产生负面影响。

对于DNA甲基化组测序数据,测序深度也会极大地影响反卷积性能,同时使用 200bp 长度的标记区域在14×深度下达到稳定水平。然而应该注意的是,为了准确预测过小的分数(即 <3%),足够的测序深度和reference大小至关重要。

参考文献De Ridder, K., Che, H., Leroy, K. et al. Benchmarking of methods for DNA methylome deconvolution. Nat Commun 15, 4134 (2024). https://doi.org/10.1038/s41467-024-48466-z

上一篇下一篇