2021-09-06 3659文献解读
自2016年第一项名为 "空间转录组学 "的技术发表以来,关于空间转录组学的论文数量大幅增加。
此前已经在多篇文章中为大家介绍了空间转录组技术及计算工具(👉 Nature:利用空间转录组技术探索组织结构;从全标本到单细胞空间组,基因表达实现“3D”分析),今天为大家分享一篇发表在arXiv.org上纯分析工具总结的预印文章“Comparative Analysis of Packages and Algorithms for the Analysis of Spatially Resolved Transcriptomics Data”,来自澳大利亚的研究团队回顾了用于分析不同空间分辨率转录组学(SRT)数据集的可用软件包和流程,重点是识别空间变异基因(SVG)以及其他目标,同时讨论了在生物数据中建立标准化“ground truth”以进行基准测试的重要性和挑战。
由于识别基因的空间表达模式以及它们在不同组织中的变化是空间转录组学的一个关键目标,因此许多专门用于分析这种数据的工具旨在识别空间变异基因(SVG)。基于scRNA-Seq分析中高度可变基因的概念,SVG的表达模式取决于其在组织中的位置,并能深入了解生物功能。分析这些空间转录组学数据集的一个复杂问题是准确地解释样本之间的空间相关性。目前各种软件包主要是用R或Python开发的,可用于识别空间转录组数据集中的SVG。
SpatialDE是一个基于高斯过程(GP)回归的流行软件包,它可以清楚地识别含有时间和/或空间注释的数据集的局部基因表达模式。SpatialDE可以通过创建一个包含两个不同项(空间和非空间)的模型来识别SVG,这两个项反映了数据集中存在的不同差异。SpatialDE的另一个功能是,它可以实现一种建立在高斯混合模型上的无监督学习技术,以应用自动表达组织学(AEH),通过使用从数据中学习到的隐藏模式,根据SVG的空间表达模式将SVG分组。SpatialDE可能通过将低表达水平的基因标记为SVG而引入假阳性的观察结果,这是一个需要进一步研究的领域,并且可以在未来版本的软件包中加以改进。
与SpatialDE具有相同目标的软件包是SPARK,该软件包使用具有不同空间核的广义线性空间模型(GLSM)来识别SVG。虽然SpatialDE和SPARK共同使用参数测试统计,但这两个软件包之间有一些关键的区别。SPARK不对归一化数据进行建模,而SpatialDE只能对p值进行近似计算,SpatialDE计算一个精确的p值,一旦获得初始的有统计学意义的基因集,就进行额外的分析以确定其p值。当对多个数据集进行验证时,SPARK的表现与SpatialDE和Trendsceek一样甚至更好。在计算效率方面,当用10个并行的CPU线程运行时,SPARK的计算效率高于在单线程SpatialDE上运行的相同分析(尽管在参考文献例子中差异很小),而Trendsceek,其单线程性能在4个不同大小的数据集上的效率始终低于SpatialDE。
Trendsceek是较早开发的软件包之一,用于使用非参数方法识别SVG。Trendsceek单独评估每个基因,并通过log10转换将其表达归一。Trendsceek与SpatialDE和SPARK的一个关键区别在于其非参数测试统计的计算,这意味着它缺乏一个基础生成模型。Trendsceek针对模拟数据集进行测试,如果数据集中不到5%的细胞具有不同的表达水平,则当SVG存在时,其识别SVG的能力非常低。即随着SRT数据集的不断扩大,Trendsceek将无法区分组织内非常小的细胞子集中存在的SVG。与SpatialDE和SPARK相比,Trendsceek在两个空间转录组学数据集上识别的SVG较少(数量几乎比其他软件包低10倍)。
每一个新开发的软件包都旨在解决已出版软件包的缺点,例如BOOST-GP,其提出了一个新的贝叶斯层次模型,旨在解释空间数据集中存在的相当数量的zero-counts,而到目前为止发表的其他软件包都忽略了这一点。与其他软件包的一个关键区别是,BOOST-GP在建立计数数据模型时采用了负二项分布。当数据中存在false zeros时,BOOST-GP的性能高于SpatialDE、SPARK和Trendsceek。根据基因表达的空间模式,BOOST-GP的准确性可能略有不同。在对人类乳腺癌数据的分析中,BOOST-GP识别的SVG比SPARK少,但其能够在GO分析中发现新的、生物相关功能,增加了它在空间转录组学数据分析中的价值。
随着更大的数据集变得越来越普遍,必须创建软件包来有效分析空间转录组学实验产生的大量数据。其中一个较新的软件包是SOMDE,其在python中构建,通过使用自组织地图(SOM)神经网络和高斯过程对数据进行建模,它可以比SpatialDE、SPARK或Trendsceek更快地在大数据集中识别SVG。与Giotto和SpatialDE相比,SOMDE在用于验证的三个不同大小的数据集上的运行时间更快。在模拟数据集上,将SOMDE性能与scGCO和SpatialDE进行比较时,SOMDE的性能始终优于scGCO,但只有在将高dropout rate纳入数据集时,其性能才优于SpatialDE。在实际数据集上进行性能测试时,SOMDE识别的大多数SVG与scGCO、SPARK和SpatialDE等识别的SVG重叠。
还有其他已开发的软件,比如在python包中实现的scGCO,其采用了图形切割算法来识别空间基因。与SpatialDE非常相似,scGCO使用高斯混合模型,但使用它对每个基因的表达进行分类,以确保基于它们的基因表达更准确地分类细胞类型。scGCO在小鼠嗅球、乳腺癌活检等数据中表现出稳定的性能。
以上回顾的软件包证明GPs是分析空间转录组学数据的流行方法,因为它们可以建立其空间依赖性模型。为此,随着新软件包的开发,许多软件包都是建立在替代的GP回归模型上,如GPcounts,可用于建立空间或时间的大规模scRNA-Seq数据模型,通过使用负二项式(NB)似然对计数数据进行建模。与高斯似然模型相比,NB似然模型应更准确地捕捉基因表达数据的分布,因为它考虑到了可能的异方差噪声和许多zero-counts的存在,但需要应用UMI规范化。GPcounts的主要目的不是识别SVG,它还能够识别差异表达基因,执行伪时间推断,然后识别分支基因并发现时间轨迹,与大多数软件包相比,它的范围更广。以SpatialDE为基准,GPcounts建立在SpatialDE实施的许多步骤之上,并对其进行了修改。这适用于从用于确定SVG和差异表达基因P值的测试程序到应用于数据的归一化类型。GPcounts还实施了额外的步骤,在其核函数超参数估计期间进行内置检查,以最大限度地减少卡在局部最优的问题,在怀疑有这种情况时重新启动优化。这是迄今为止唯一的基于优化的方法之一,它实现了这种自我检查,使GPcounts在准确识别SVG方面具有明显的优势。在真实的小鼠嗅球数据集测试中,GPcounts在所有软件包中识别了最多的SVG,绝大部分识别的SVG与SpatialDE和SPARK识别的SVG重叠;GPcounts识别的独特SVG空间模式与Allen Brain Atlas描述一致,说明这些发现具有高可信度;GPcounts还识别了数据集中表达的90%的生物学上重要的标记基因(vs SPARK80% vs SpatialDE 30%)。
某些框架的开发考虑到了特定的SRT技术,并结合解决开发者认为缺乏的数据分析领域。其中之一是用R语言创建的STUtility工作流程,它是基于Seurat分析工具而建立的。
其他软件包也被开发出来,目的是解决分析中未被充分考虑的差距;其中一个软件包是Sparcle。当试图从基于图像的空间转录组学技术中获得准确的基因计数矩阵时,往往许多转录本在进行分割后没有被分配到细胞中,导致数据的丢失。Sparcle旨在从这些 "‘dangling "转录本中重新获取数据。Sparcle可与任何smFISH技术的数据结合使用,它能建立一个概率模型,利用最大似然估计(MLE)将这些dangling转录本分配到适当的邻近细胞。与其他软件包类似,Sparcle假设基因表达的最精确表示可以用多变量高斯分布来建模。
识别SVG是最初开发的软件包的主要重点,但需要注意的是,具有其他目的的软件包正在越来越多地被公布。例如,SpatialDWLS的创建是为了改善数据集中不具备单细胞分辨率的位置的不同细胞类型的识别,即细胞类型去卷积。SpatialDWLS可以概括为两个步骤,第一个步骤使用细胞类型富集分析方法来确定哪些类型的细胞在每个位置具有较高的概率,第二个步骤使用阻尼加权最小二乘法(DWLS)的扩展来确定指定位置的细胞类型的精确组成。对一个模拟的空间转录组学数据集进行评估时,SpatialDWLS在具有较低的均方根误差(RMSE)和计算时间方面优于RCTD和stereoscope。然而,当它的性能针对真实的小鼠大脑Visium数据集进行测试时,SpatialDWLS的性能没有与其他三个软件包进行比对,因此它在真实数据上的性能并不清楚。尽管如此,作者报告说,SpatialDWLS分配的细胞类型的空间位置与Allen Mouse Brain Atlas中的报告一致。SpatialDWLS这个软件的一个有趣的应用是确定在整个胚胎心脏发育过程中细胞类型组织在空间和时间上的变化。
将细胞类型分配给空间转录组学数据集的方法不止一种。通过将先验知识纳入概率似然函数,FICT可以混合表达和空间信息,将细胞类型分配给空间转录组学数据集。使用三个模拟和真实数据集对FICT进行了验证,并将其与GMM、scanpy、Seurat和smfishHmrf的结果进行了比较:在所有三个模拟数据集中,FICT的中位精度最高,在其中一个模拟数据集中达到了约0.89;在真实的MERFISH小鼠下丘脑数据集中,FICT在分配细胞类型聚类方面的性能更优越,其有潜力在数据集中识别新的子群。FICT在应用于更大的数据集时具有更高的准确性,但其在这些情况下的运行时间仍然可以改进。
RCTD是另一个软件包,其最终目的是识别空间转录组学数据集中的细胞类型。RCTD利用注释的scRNA-Seq数据创建数据中预期细胞群的细胞类型概况,然后使用监督学习方法用细胞类型标记空间转录组pixels。由于这一分析的主要障碍之一是目前的空间转录组学数据集可能在一个pixel内包含多种细胞类型,RCTD还可以拟合一个统计模型,以确定一个pixel内存在的多种细胞类型,并将scRNA-Seq和SRT数据集之间的平台效应归一化。使用这种方法,RCTD能够跨平台对细胞进行分类,准确率接近90%。与其他监督学习方法一样,使用该工具可以检测的细胞类型受限于参考数据集的准确和完整注释。
空间转录组将转录信息置于空间环境中。聚类通常是分析这类数据的核心组成部分。然而,在这些类型的分析中,选择适当的超参数,例如使用正确数量的聚类,是一个挑战。为了解决这些问题,相关研究团队开发了一个名为SpatialCPie的R包,可以让用户直观地了解空间转录组数据中的“簇”是如何相互关联的,以及二维空间转录组阵列上的每个区域与每个“簇”的关联程度。
随着空间转录组学领域的不断扩大,综合分析管道将变得更加普遍。第一批用R语言编写的管道之一:Giotto是一个可以用于转录组学和蛋白质组学数据的平台;它分为数据分析和可视化模块。由于注重用户友好和可重复性,Giotto确实提供了使用HMRF模型进行更复杂空间分析的机会。作为一个基础,Gioto创建了一个用于下游分析的细胞和空间网格的邻域网络,包括配体受体识别、基因表达模式分析和确定优先细胞邻接。Giotto提供了三种不同的识别标记基因的算法(Gini、Scran、Mast),每种算法的灵敏度和特异性在不同的细胞群体中略有不同。Giotto也有专门为低分辨率空间转录组学数据集设计的分析管道。多个算法的可用性使得需要不同输入的Giotto能够灵活地应用到许多不同的数据集。
Squidpy开发了一个新框架,用于结合和涵盖空间组学技术分析的所有方面。虽然不是专门为分析空间转录组学数据而建立的,但用Python开发的Squidpy框架为任何空间组学数据带来了通用的分析和可视化工具,并利用可用的附加信息来改善探索。Squidpy提供了一种比Giotto更广泛、更模块化的方法,其他软件包可以轻松地集成到其预先存在的框架中,以扩展其功能。Squidpy将图像数据存储在一个图像容器中,并创建一个空间坐标的邻接图,这样它就可以在各种技术上使用。Squidpy的一个特点是其内置的图像分析工具,虽然到目前为止讨论的软件包都需要图像作为分析输入的一部分,但没有一个软件包能像Squidpy那样让用户对该图像中的数据进行分析,这是Squidpy与Giotto的最大区别。
尽管SRT是一项相对较新的技术,但它通常与scRNA-Seq或其他技术一起,已经成功地应用于识别各种组织和疾病状态中的基因表达变化。在所有讨论的软件包中,SpatialDE似乎是最受欢迎的,其次是SPARK、Trendsceek和Giotto,它们被用来作为验证新软件包的基准。
为了最全面地确定所有软件包的相对性能,应该进行一次审查,根据不同组织中不同SRT方法生成的相同数据集,同时对所有包进行基准测试,并建立验证的标准方法。更多模块化的软件包可以相互集成以扩大分析范围,这一点至关重要,并将有助于推动这一技术的应用领域和普及。此外,进一步开发用户友好的管道也将使分析SRT结果变得更容易。随着可用于分析SRT数据的一系列工具的增多,采用该技术的研究结果将得到改善,解决的生物问题的范围也将同时扩大。
*由于为预印文章,未经过同行评议,如有疑义建议联系作者进一步探讨(点击可访问原文:https://arxiv.org/abs/2108.01304)。
参考文献
Charitakis N, Ramialison M, Nim H T. Comparative Analysis of Packages and Algorithms for the Analysis of Spatially Resolved Transcriptomics Data[J]. arXiv preprint arXiv:2108.01304, 2021.
图片均来源于参考文献,如有侵权请联系删除。