Cell Systems封面发表时空转录组去噪算法SpotGF,助力获取高质量时空转录组数据

2024-10-21 121CNGBdb

2024年10月,国家基因库生命大数据平台支撑科研成果在《Cell Systems》以封面文章形式发表。该研究题为“SpotGF: Denoising spatially resolved transcriptomics data using an optimal transport-based gene filtering algorithm”,介绍了时空转录组去噪算法SpotGF,阐释了这套算法如何识别并过滤噪声基因,有效降低时空组数据中的噪声,并避免新的假阳性信号。

SpotGF-1.png

SpotGF-2.png

该研究依托深圳国家基因库完成全部生物信息学数据分析,生成的拟南芥和大豆的Stereo-seq数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:STT0000048

理想情况下,基因表达应在其原位被捕获。Stereo-seq就是一种结合了基因表达信息与细胞空间位置的空间转录组技术,能够帮助科研人员探究基因表达在组织和器官中的空间分布。

但在实际操作中,不同细胞类型的差异、实验环境中难以预测的分子热运动、建库过程中的反转录和扩增步骤、数据分析中参数和算法的不当使用等情况都有可能增加噪声或假阳性的信号。

因此,开发高效的去噪算法来获取准确的空间转录组数据,对于后续生物学问题的解读至关重要。

SpotGF-3.png

为此,研究团队开发了SpotGF去噪算法,算法基于最优传输理论,定量分析了每个基因表达的扩散程度,从而准确识别并过滤那些因扩散而变得无效的基因,这些无效基因通常无法为生物信息学分析提供价值。

与以往依赖数学统计模型来调整原始基因表达量的去噪方法不同,SpotGF在去除无效基因的同时,保留了有效基因的原始表达,从而避免引入新的假阳性信号,提高了分析的准确性。

SpotGF-4.png

SpotGF适用于多种生物信息学框架,研究人员还将其与目前广泛使用的去噪算法如Magic、SpotClean、Sprod等进行了比较。结果表明,在各项指标上SpotGF均展现出了更优越的性能,并显著提升了包括Stereo-seq在内的一系列空间转录组数据的聚类效果,更准确地鉴定出了细胞类型的特征基因。

如何获取高质量的空间转录组数据一直是研究人员面临的挑战。SpotGF算法通过精准去除数据中的噪声,显著提高了空间转录组数据的信噪比,使得细胞聚类、细胞类型注释和差异表达等分析结果更加精确。这为理解复杂生物系统中的基因调控网络、信号传导途径,以及细胞间的相互作用提供了强有力的工具。

SpotGF算法的原始代码已存放在GitHub: https://github.com/illuminate6060/SpotGF

北京华大生命科学研究院2021级国科大直博生杜琳为论文的第一作者,北京华大生命科学研究院的孙海汐和张博涵为论文的共同通讯作者。该研究得到了国家重点研发计划的资助。该研究依托深圳国家基因库完成全部生物信息学数据分析,原始测序数据存储于国家基因库序列归档系统CNSA。

参考文献:

Du L, Kang J, Hou Y, et al. SpotGF: Denoising spatially resolved transcriptomics data using an optimal transport-based gene filtering algorithm[J]. Cell Systems, 2024.

信息来源于:“华大集团BGI”公众号。

上一篇下一篇

相关专题