2024-01-08 1520文献解读
来自不同物种的单细胞基因表达数据集越来越多,这为探索跨物种细胞类型之间的进化关系创造了机会。scRNA-seq数据的跨物种整合尤其具有参考价值。2023年10月,《Nature Communications》发表研究论文,对28种基因同源性图谱方法和数据整合算法组合在各种生物环境中的表现进行了基准测试。使用9个已确立的指标,考察了每种策略对已知同源细胞类型进行物种混合和保持生物异质性的能力。同时还开发了一种新的生物学保护指标,以解决维持细胞类型可区分性的问题。
研究团队开发了scRNA-seq数据跨物种整合策略(BENGAL)流程,对28种跨物种单细胞转录组学数据整合策略进行了基准测试,包括4种通过同源性进行跨物种基因匹配的方法和10种整合算法。基于一致的细胞类型同源性和统一的本体标注,使用4个指标来评价物种混合程度,6个指标来评价生物保护程度。
scANVI、scVI和SeuratV4方法实现了物种混合和生物保护之间的平衡。对于进化上距离较远的物种,包括旁系同源物种是有益的。SAMap在整合具有挑战性的基因同源性注释的物种之间的全身图谱时表现出色。
基于本研究中调查的多种跨物种整合场景,研究团队提供了以下关于选择最合适的跨物种整合算法的指南:
对于密切相关的物种,scVI(当有可靠的细胞类型注释可用时为 scANVI)或 Harmony 在保持生物异质性的同时进行物种混合。
对于相对较远的物种,SeuratV4方法可以实现强物种混合,并且对于较大的数据集,RPCA 比 CCA 更具可扩展性。
对于全身图谱的整合或缺乏完善的基因同源性注释的物种之间的整合,SAMap 擅长通过解决基因同源性作图挑战来对齐同源细胞类型。 对于共享大量一对多和多对多直系同源物的物种,将它们纳入分析可以改善整合,因为它们保留了更多关于细胞类型表达谱的信息。
值得注意的是,scRNA-seq数据的实际整合对于已经分化到一定程度的物种(例如来自同一门的物种)最为有利。根据心脏的例子得出结论,当非哺乳动物与哺乳动物之间进行数据集成时,结果仍然可以作为细胞类型注释转移的基础,但由于生物学特性的强烈缺失,嵌入并不适合进行从头聚类分析。对于距离非常遥远的物种,细胞类型标记基因的相关分析等替代方法可能更为合适。
研究团队还提供了以下免费可用的工具:
1)BENGAL,用于跨物种scRNA-seq数据整合和整合结果评估的Nextflow流程;https://github.com/Functional-Genomics/BENGAL
2)ALCS,一种以跨物种整合为重点的生物学保护指标,用于量化细胞类型可区分性的损失;
3)scOntoMatch是一个R包,用于帮助调整不同数据集的细胞本体注释粒度。https://cran.r-project.org/web/packages/scOntoMatch/index.html
参考文献Song, Y., Miao, Z., Brazma, A. et al. Benchmarking strategies for cross-species integration of single-cell RNA sequencing data. Nat Commun 14, 6495 (2023). https://doi.org/10.1038/s41467-023-41855-w