2023-01-03 1224文献解读
此前小编已经为大家整理过10款空间转录组去卷积工具的综合比较,除了去卷积,聚类也是空转数据分析中的关键步骤。近日,《Briefings in Bioinformatics》发表了综述文章,根据聚类性能、鲁棒性、计算效率和软件可用性对七个软件工具提供的15种聚类方法进行了综合测试。
为了全面评估不同聚类方法的性能,研究团队基于不同技术准备了七个具有真实位置信息的空间转录组学数据集。同时设计了一个RShiny程序,使用真实数据提供的空间位置并考虑到预定的空间模式,将真实细胞类型标签分配给模拟数据中的单个细胞(或点)。对于采用组织学染色的空间转录组学方法,研究团队模拟了红色、绿色和蓝色 (RGB) 的像素值,以反映真实的 H&E 颜色范围和真实的细胞类型分配。
研究团队将聚类方法视为把观察到的空间转录组学数据作为输入和输出聚类标签的函数和/或算法的集合。在本研究中,比较了以下七种软件工具提供的 15 种聚类方法。
聚类精度:Seurat-LVM、SpaGCN和Seurat-LV总体上是最准确的聚类方法。使用来自空间坐标和组织学图像的附加信息的方法并不能系统地优于仅使用基因表达信息的方法。
不同测序深度下的稳健性:考虑到测序深度降低到50%,基于Seurat的方法是最稳健的方法。同样,结合空间或组织学信息不能保证提高现有方法的聚类鲁棒性。
聚类参数的鲁棒性比较:在要求用户指定聚类数量的方法中,SpaGCN、SpaGCN+ 和 Giotto-H 在给定错误的指定参数值时保持最高的平均聚类精度。
组织学图像对变异的鲁棒性比较:对于以组织学图像为输入的聚类方法(stLearn、SpaGCN+、SpaCell和SpaCell-I),当提供质量更好的图像时,它们没有表现出明显的改善。
软件使用:基于Seurat和SpaGCN的方法具有最佳的计算效率,Seurat、SpaCell和stLearn具有最佳的软件支持。
为了阐明真实数据上的方法性能,研究团队还比较了五个真实空间转录组学数据集上15种方法的聚类精度,将原始出版物中报告的细胞类型标签作为评估聚类结果的参考。从这些结果中,发现Seurat SLM、BayesSpace、Giotto LD、Giotto-H和SpaGCN分别在真实数据集1到5上具有最佳的聚类精度。当比较数据集中不同方法的相对性能时,发现在不需要组织学图像的方法中,基于Seurat的方法、BayesSpace和SpaGCN具有最佳的准确性。此外,在依赖组织学图像作为输入的方法中,SpaGCN+和stLearn的排名相似,都优于基于SpaCell的方法。这些结果与模拟数据的观察结果一致
空间转录组学数据提供的额外空间和组织学信息为发展聚类方法开辟了新的途径,我们确实观察到在选定数据集中细胞群体识别的准确性提高。然而,未来仍有许多待解决问题,包括如何在噪声的情况下更有效地结合空间和组织学信息,以及如何减轻聚类对用户指定的聚类数或其他聚类参数的依赖等。
建议对测试细节感兴趣的小伙伴参考文献原文~文章无法覆盖所有聚类算法,文中作者也提到几种新的聚类方法,包括STAGATE、SEDR、ClusterMap和SC-MEB。为支持新方法的进一步比较,研究团队已将本研究中分析的数据上传到Github上的公开存储库https://github.com/acheng416/Benchmark-CTCM-ST
参考文献Chen J, Liu W, Luo T, et al. A comprehensive comparison on cell-type composition inference for spatial transcriptomics data. Brief Bioinform. 2022 Jun 27:bbac245. 图片均来源于参考文献,如有侵权请联系删除。