前沿综述 | 如何从空间转录组数据中分析空间变异基因?

2022-02-14 2549文献解读

空间转录组研究中的一项关键任务是识别跨空间位置具有不同空间表达模式的空间变异基因(SVG)。识别SVG为系统分析特定位置的细胞状态、推断细胞间的通讯以及确定生物体中重要的表型和功能提供了机会。此前《Molecular Therapy-Nucleic Acids》发表综述文章,对目前可用于SVG分析的最先进的计算方法和工具进行了最新的系统性概述。该研究将指导医学和生命科学家寻找专用资源和更有效的工具来表征基因表达的空间模式。

SVG分析-1.png

空间转录组的数据存储库

SVG分析-2.png

SpatialDB(https://www.spatialomics.org/SpatialDB/):是一个手动管理的空间转录组资源,供研究人员有效研究和重复使用已发布的数据。当前版本的SpatialDB包括5个物种(人类、小鼠、果蝇、秀丽隐杆线虫和斑马鱼)的24个空间转录组数据集。此外,SpatialDB展示了SpatialDE和trendsceek识别的SVG,以及数据可视化、比较、GO和KEEG富集分析。

Single Cell Portal (https://singlecell.broadinstitute.org/single_cell):是一个不断发展的综合性单细胞数据库,该数据库收集并整合了来自400项研究(包括空间转录组的研究和数据集)的17640076个细胞;其中大部分来自Broad研究所开发的空间转录组技术。

SVG识别的计算方法

在过去的几年里,已经开发了许多计算方法/工具来帮助阐明基因表达的空间变异。根据内在原理可分为三类:(1)基于统计建模的方法;(2) 基于机器学习的方法;(3)基于空间网格的方法。

SVG分析-3.png

基于统计建模的方法

SVG分析-4.png

基于已知细胞空间坐标及其基因表达水平的统计建模方法为阐明空间基因表达异质性提供了统计框架。其一般工作流程:首先,输入基因表达谱和细胞位置信息。根据输入的信息,构建统计框架来阐明基因表达值与细胞空间位置之间的相关性。随后,通过不同的统计方法确定显著SVG。

trendsceek使用标记点过程来模拟基因表达和细胞坐标之间的关联;SpatialDE是一种基于高斯过程回归的方法;与SpatialDE相比,SPARK做了一些具体的改进,其基于具有多个空间核的空间广义线性混合模型识别SVG,直接对空间计数数据建模;SPARK-X基于非参数建模,有效地减少了内存需求和计算时间,同时保持了可靠模型的有效性;GPcounts利用高斯过程回归方法,通过负二项似然模型对空间转录组数据进行建模,在处理计数数据时实现了比高斯似然函数更好的拟合;BayesSpace是一种完全贝叶斯统计方法,它使用来自空间邻域的信息来增强空间转录组数据的分辨率并进行聚类分析。

基于机器学习的方法

SVG分析-5.png

基于光谱的方法已经成为一种根据特征和基础结构之间一致性程度进行无监督特征选择的方式。RayleighSelection扩展了基于图的Laplacian方法,使用了一个简单的复合体,显著简化了数据之间的关联,并对具有复杂组合结构的特征进行了特征选择。

由于输入数据的特征丰富且结构良好,神经网络作为机器学习的另一个重要分支,已被广泛用于分析scRNA-seq和空间转录组数据。SOMDE使用自组织映射(SOM),在保持原始空间信息的前提下,根据输入数据的密度和拓扑结构构造一个节点数较少的压缩映射,然后用高斯过程(GP)检测SVG;SPADE使用成像数据和空间转录组数据作为输入,通过卷积神经网络提取每个点周围的形态特征,并将其与基因表达数据相结合,以识别与空间和形态异质性相关的关键基因。此外,可以基于这些关键基因进行功能分析,以进一步阐明负责不同形态特征的生物过程。

基于空间网格的方法

SVG分析-6.png

这类方法旨在将空间划分为多个网格,并对不同细胞之间的空间关系进行编码或推断细胞的分布,然后应用后续步骤,例如对细胞的空间相邻关系或基因表达水平进行二值化以识别SVG。

SingleCellHaystack将空间划分为网格,并根据细胞的密度确定该网格上的多个网格点。对于每个基因,SingleCellHaystack通过阈值将所有细胞聚成两类(检测到该基因的细胞和未检测到该基因的细胞)。然后,SingleCellHaystack计算这两类细胞的分布,并将它们与空间中细胞的随机分布进行比较。Kullback-Leibler散度用于计算每个基因的DKL分数作为变异程度,并识别在多维空间中不均匀表达的基因。基于这个分数,可以评估基因的空间变异性。Merungue通过三角剖分算法(Delaunay)将空间转录组数据中的每个细胞视为一个邻域,然后根据这些邻域确定每个细胞对是否相邻,并应用二进制邻接权重矩阵来表示这种关系。根据构建的邻接矩阵和基因表达矩阵,Merungue计算出空间自相关统计量,即Moran's I,以获得重要的空间基因。此外,Merungue通过空间交叉相关指数,将确定的空间基因分类为多种空间表达模式。Giotto已被开发为分析和可视化空间转录组数据的工具箱,并结合了四种识别空间基因的方法,包括trendsceek、SpatialDE、SPARK和BinSpect。BinSpect首先使用Delaunay创建一个空间网格来表示细胞之间的关联。对于每个被输入的基因,BinSpect将通过K-means聚类或等级阈值对基因表达值进行二值化,并根据这些二值化的表达值计算出相邻细胞之间的或然率表。通过统计学上的富集测试,如果一个基因在相邻细胞中的表达量很高,这个基因将被视为SVG。作为一种基于图的模型,隐马尔科夫随机场模型(HMRFs)利用空间基因和空间邻域网络来总结主要的空间域。

参考文献
Li K, Yan C, Li C, et al. Computational elucidation of spatial gene expression variation from spatially resolved transcriptomics data[J]. Molecular Therapy-Nucleic Acids, 2021.
图片均来源于参考文献,如有侵权请联系删除。

上一篇下一篇