2024-11-12 146文献解读
单细胞多组学技术的发展极大地增强了我们对生物学的理解,与此同时,许多算法已被提出来从单细胞转录组信息中预测细胞的蛋白质丰度和/或染色质可及性,并整合各种类型的单细胞多组学数据。然而,很少有研究系统地比较和评估这些算法的性能。2024年9月,《Nature Methods》发表综述文章,使用47 个单细胞多组学数据集对14种蛋白质丰度/染色质可及性预测算法和18种单细胞多组学整合算法进行了基准研究。
为了评估每种算法的性能,研究团队计算了单细胞 RNA + 蛋白质数据集的预测矩阵与参考矩阵之间的细胞-细胞和蛋白质-蛋白质皮尔逊相关系数(PCC),以及单细胞 RNA + ATAC 数据集的细胞-细胞和峰-峰 PCC,PCC 值越高表示预测准确率越高。在ATAC-seq数据中,“峰 ”指的是可访问的 DNA 片段。鉴于参考矩阵的二进制性质,使用接收者操作特征下面积(AUROC)来评估染色质可及性预测算法的准确性,AUROC越高表示性能越好。为了评估每种算法的误差,计算了测试集的两个细胞间相关矩阵,一个是算法预测的蛋白质丰度或染色质可及性,另一个是参考数据。然后,用两个相关矩阵之间的差值(即相关矩阵距离,CMD)来表示预测误差。研究团队还计算了蛋白质-蛋白质或峰-峰相关矩阵的 CMD,以表示这些算法在预测蛋白质丰度或 DNA 可及性模式时的误差,还利用均方根误差(RMSE)来量化预测值与参考值之间的偏差。
研究团队还定义了一个等级指数(RI),在六个指标(即细胞-细胞 PCC、蛋白质-蛋白质 PCC、细胞 CMD、蛋白质-蛋白质 CMD、AUROC 和 RMSE)和两种情况(即数据集内和数据集间)下综合考虑每种算法。如果一个算法的 PCC/AUROC 值高于所有算法的 PCC/AUROC 值中位数,或者其 CMD/RMSE 值低于 CMD/RMSE 中位数,则该算法将被赋予 1 分(具体参考方法部分)。然后将六项指标和两种方案的得分汇总计算出 RI 值,对算法的整体性能进行评估。
在预测蛋白质丰度方面,totalVI 和 scArches 的总体表现优于其他算法,而在预测染色质可及性方面,LS_Lab 在大多数情况下是表现最好的算法。Seurat、MOJITOO 和 scAI 成为纵向整合的领先算法,而 totalVI 和 UINMF 则在横向整合和马赛克整合场景中表现出色。
totalVI 和 scArches 在预测蛋白质丰度方面表现最好。
LS_Lab 在预测染色质可及性方面在大多数情况下优于其他算法。
在纵向整合方面,Seurat 和 MOJITOO 在合并 RNA 表达和蛋白质丰度方面表现最佳。
在横向整合方面,totalVI在整合多批单细胞RNA+蛋白质数据方面表现出了优势,而UINMF在整合多批次单细胞RNA+ATAC数据方面表现出色。
在马赛克整合方面,totalVI 被强烈推荐用于将 scRNA-seq 与单细胞 RNA+蛋白质数据相结合,而 UINMF 对于其他马赛克整合场景特别有效。
研究团队的评估还突出表明,基于奇异值分解的机器学习算法(如 Guanlab-dengkw 和 LS_Lab)在预测蛋白质丰度或染色质可及性方面表现突出。在深度学习算法中,利用概率模型的 totalVI 的表现优于其他算法。研究团队还发现这些数据集的稀疏性在一定程度上影响了这些算法预测蛋白质丰度或染色质可及性的准确性。一种可能的解决方案是首先应用插补算法,例如 SAVER、WEDGE、totalVI 或 scBasset,来预测原始数据中的缺失值,然后使用插补后的数据集进行训练和预测。最近开发了利用大型语言模型的算法,用于预测缺失的模态或整合来自广泛的单细胞多组学数据集的多种模态;然而,由于当前的硬件限制,上述基准研究不包括这些基于大型语言模型的预测或集成算法,如Geneformer、scGPT和scFoundation。
这项基准研究不仅可以帮助研究人员选择合适的算法来联合分析单细胞 RNA-seq 和多组学数据,还可以帮助研究人员选择合适的算法来联合分析空间转录组学数据和单细胞多组学数据。不过,需要注意的是,空间数据和非空间数据可能呈现不同的分布,这可能会影响算法的性能。
开发团队已经将用于基准研究和图形绘制的代码和脚本上传到GitHub:https://github.com/QuKunLab/MultiomeBenchmarking/
上述代码也可以在Zenodo存储库中通过以下方式获取:https://doi.org/10.5281/zenodo.10540843
参考文献Hu, Y., Wan, S., Luo, Y. et al. Benchmarking algorithms for single-cell multi-omics prediction and integration. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02429-w