2024-08-26 142文献解读
单细胞Hi-C (scHi-C) 技术的出现为研究细胞周期阶段与染色质三维 (3D) 结构之间的复杂关系提供了前所未有的机会。然而,基于 scHi-C 数据准确预测细胞周期阶段仍然是一个巨大的挑战。2024年7月,《Communications Biology》发表了一个预测模型 ——scHiCyclePred,其整合了多种特征集,利用 scHi-C 数据来预测细胞周期阶段。
为了克服从scHi-C数据预测细胞周期阶段的障碍,开发团队提出了一个计算框架scHiCyclePred。该框架整合了从scHi-C数据中提取的三个特征集,并采用基于多特征融合的CNN模型,利用深度学习方法预测细胞周期阶段。除了现有的接触概率分布与基因组距离(CDD)特征集之外,开发团队还提出了另外两个特征集:bin接触概率特征集(BCP)和小域内接触概率特征集(SICP),旨在提高细胞周期阶段预测的准确性。
scHiCyclePred基于深度学习的框架包括两个关键步骤:提取多个特征集和基于多特征融合的CNN模型。
开发团队将scHiCyclePred的性能与现有方法进行了比较,并证明它在预测细胞周期阶段方面优于现有方法。
比较分析表明,scHiCyclePred在包括准确性(ACC)、F1得分、精确度、召回率和平衡准确性(BACC)在内的各种指标上超越了Nagano method和CIRCLET等现有方法。此外,使用复杂组织数据集对scHiCyclePred与之前发表的CIRCLET进行了评估。实验结果表明,scHiCyclePred在ACC、F1评分、精确度和召回率指标方面分别比CIRCLET提高了0.39、0.52、0.52和0.39。
scHiCyclePred优于其他方法,并且在 drop-processed 数据集上表现出稳健性;scHiCyclePred 在各种不平衡数据集中表现出稳健的稳定性和泛化能力。
此外,通过评估不同特征的影响并考虑其特点,开发团队分析了染色体三维结构在各个细胞周期阶段的变化模式,研究结果与先前研究一致。重要的是,对不同特征的分析揭示了不同细胞周期阶段之间染色体三维结构的变化或趋势,从而为理解细胞周期过程中的染色质动力学提供了一个视角。
CDD特征集中前20个特征的重要性评估结果。
BCP特征集中前50个特征的重要性评价结果。
SICP特征集中前50个特征的重要性评估结果。
总的来说,scHiCyclePred提供了一种准确且用户友好的计算方法,仅基于scHi-C数据预测细胞周期阶段,并为理解细胞周期中染色质的动力学提供了线索。
scHiCyclePred 的源代码可在 GitHub和Zenodo上免费获取:
https://github.com/HaoWuLab-Bioinformatics/scHiCyclePred
https://doi.org/10.5281/zenodo.12721771
参考文献:Wu, Y., Shi, Z., Zhou, X. et al. scHiCyclePred: a deep learning framework for predicting cell cycle phases from single-cell Hi-C data using multi-scale interaction information. Commun Biol 7, 923 (2024). https://doi.org/10.1038/s42003-024-06626-3