2021-08-23 8137文献解读
高通量测序和成像方法的技术进步确立了空间转录组学在整个组织空间系统地检测所有或大多数基因表达水平的能力。近日,来自美国的科研团队在《Nature》发表综述文章,回顾了常见的空间转录组技术,讨论了这些方法产生的数据的探索原则,检查了空间转录组在不同的实验设计中的效用,并强调了该技术通过与其他模式的整合实现生物学洞察的前景。
本文回顾的方法侧重于能够跨组织区域进行转录组水平检测的技术。空间转录组学技术主要分为:(1)基于NGS的技术,在NGS前将位置信息编码到转录本上;以及(2)基于成像的方法,包括基于原位测序(ISS)的方法--转录本在组织中被扩增和测序,以及基于ISH的方法--成像探针在组织中被连续杂交。这些不同的技术可以被看作是汇聚在一个基因表达矩阵上,该矩阵捕获了每个点(即一个像素、一个细胞或一组细胞)的转录组。
此前小编也为大家总结过空间转录组技术:从全标本到单细胞空间组,基因表达实现“3D”分析;空间转录组是一种怎样的转录组?在此就不展开描述技术细节了,本文对选择空间转录组学方法的考虑因素做了如下总结:
基于NGS的方法是无偏向性的,因为它们捕获所有多聚腺苷酸化的转录本,因此非常适合探索新的系统。相比之下,ISH和大多数基于ISS的方法(FISSEQ和ExSeq除外)是有针对性的,需要对感兴趣的基因有先验知识。尽管如此,这些方法的通量近年来有所增加,达到了10000个基因。靶向的空间转录组学方法也可以与scRNA-seq结合使用,这样就可以更精确地定位已经识别的感兴趣的基因。此外,非多聚腺苷酸化转录物的探针可用于查询其他RNA,如成熟的microRNA和tRNA。
基于NGS和ISS的方法能够检测融合转录物、剪接异构体和单核苷酸变体及点突变。当与基因表达矩阵结合时,这些数据可以通过RNA速度或谱系追踪帮助重建时间过程。
基于ISH的方法具有很高的灵敏度,与金标准单分子荧光ISH(smFISH)相比,最近达到了80%的检测效率。基于NGS的方法的灵敏度明显较低,仍低于scRNA-seq,但正在迅速提高到约100个独特转录本/μm2。一般来说,灵敏度和基因通量之间存在一种权衡,这可以从基于ISS的靶向方法相对于无偏向方法的更高灵敏度中看出。
原位方法的分辨率仅受光学衍射极限的限制,在扩张显微镜下,分辨率已达到100 nm左右。因此,这些方法非常适用于有关亚细胞组织的问题。基于NGS的方法受限于斑点的直径,但其分辨率自最初的方法以来迅速提高,最近达到约1μm。
尽管在组织大小和成像时间之间存在权衡,但原位方法可以跨越广泛的尺寸范围。相比之下,基于NGS的方法是标准化的,阵列大小约为10 mm2(目前商用的10X Genomics Visium为6 mm2),这可能不适用于较小或较大的样本。
尽管这些技术非常强大,但它们的广泛应用仍存在障碍,包括获得用于原位方法的单分子成像,以及用于基于NGS方法的捕获阵列的制造。商业化在某些情况下促进了这些技术的应用,如10X Genomics Visium。
由于空间转录组技术提供了一个无偏向的空间组成图,已被用于生成组织图谱。
在神经生物学方面:基于空间转录组学的方法已经建立了整个小鼠大脑或特定区域的详细图谱,如视觉皮层、初级运动皮层、中颞回、下丘脑视前区、海马和小脑。相关研究在对背外侧前额叶皮质的分析中确定了已知精神分裂症和孤独症相关基因的空间模式,从而提出了精神分裂症遗传易感性的机制。
在发育生物学中:时间分辨的空间转录组图谱有助于阐明心脏发育、精子发生和肠道发育的空间动力学。同样,对人类子宫内膜在月经周期的增殖期和分泌期的全面研究发现了WNT和Notch信号在调节向纤毛或分泌型上皮细胞分化中的作用。这些图谱一直是合作项目协调努力的重点,为研究界提供有效资源,并得到Human Cell Atlas项目和Allen Institute for Brain Science的支持。
除了正常的发育和生理之外,空间转录组学很适合研究疾病中的组织结构紊乱。空间转录组学能够识别在癌症中起作用的机制,即正常生理功能的组织结构发生改变。随着人们对肿瘤微环境重要性的日益认识,空间转录组学已被用于研究其与不同状态癌细胞的关系。特别是,空间转录组学能够研究癌症和正常组织之间的分子特征。例如,在皮肤鳞状细胞癌中发现了免疫调节性癌细胞状态。空间转录组学还为神经退行性疾病(包括阿尔茨海默病和肌萎缩侧索硬化症)、感染和炎症过程(如麻风病、流感和败血症)以及风湿病(包括类风湿性关节炎和脊柱关节炎)中组织失调机制提供了见解。
空间转录组技术产生了一个基因表达矩阵,对其进行分析既可以检验现有的假设,也可以通过探索性分析产生新的观察结果。鉴于空间转录组数据集的复杂性和高维度,采用一种开放的思维方式,通过数据分析找到意想不到的关系,可以产生新的见解。
分析空间转录组数据通常需要排除低质量数据和基因表达矩阵上的初始转换,以提高信噪比,这可以使用分析软件包(如Giotto、Seurat、STutility和stLearn)执行。平滑算法可应用于数据,以提高灵敏度,并消除技术和生物变化的不必要来源。基于相邻点之间可以共享信息的前提,沿空间坐标在移动窗口中平均物理相邻点之间的基因表达可以减少噪声。为了比较基因在不同点上的表达,转录组通常通过除以转录总数量(百万分转录本(TPM))或使用正则化负二项回归进行标准化。类似地,通过调整数据比例,使数据在不同点上具有相同的平均值和方差(z-score),可以帮助进行基因间的比较。
Cluster:聚类操作揭示了数据中的结构,最基本的定义是具有相似转录组的点集,或者正交地,识别在点之间具有相似表达模式的基因。点之间的相似性可以用相关或欧氏距离直接在转录组之间计算,或在降维后计算,如PCA、t-SNE和UMAP。然后,这些相似性被用于聚类--例如,使用K-means、Louvain或分层聚类。这些聚类可能对应于研究组织中的不同区域或细胞类型,然后可以对其进行注释。基因聚类使用相同的方法,可以识别与细胞类型或细胞状态相对应的共表达基因模块。目前正在开发诸如BayesSpace之类的聚类方法,这些方法侧重于空间转录组学的特定特征。
Select:典型的空间转录组数据集包含的生物信息比任何单一分析都有意义。因此,通常应该选择一个感兴趣的区域,例如大脑的一个特定层,或肿瘤和微环境之间的界面。基因选择方法比比皆是,那些专门针对空间转录组数据的方法试图识别具有高变异性的基因,其表达在整个组织中不是随机的。可以根据基因的空间自相关性(使用Moran's I或Geary's C)、邻近富集(如在BinSpect中)或函数(如在Haystack中)对基因进行评分。Trendsceek使用标记点处理方法,能够识别表达的热点和梯度等。SpatialDE使用高斯过程回归将给定基因的表达变异性分解为空间和非空间成分,并在SPARK中扩展了类似的方法。
Score:虽然基因和斑点是空间转录组学的主要观察数据,但基础生物学意味着基因作为模块共同表达,斑点转录组反映有限的细胞类型和状态。这是评分函数的前提,评分函数用于将一组相似的点总结为单一基因表达谱,或正交地将一组连贯的基因总结为单一模式,以这种方式总结数据可以识别功能特性。评分可以简单地通过对集合的值求平均值来完成,或者根据Seurat工作流中实现的空模型对表达式进行评分。
Characterize:通过对空间转录组数据的操作所确定的对象--斑点群和基因组--必须为生物学理解和解释提供特征。当一组斑点与组织学区域相匹配时,可以手动对其进行表征,如在MERFISH中对大脑中的单个细胞类型进行注释等。聚类也可以通过识别一组标记基因并对其进行表征来间接注释。具体而言,可以通过量化其与注释基因集的重叠来表征基因集。这是多模式交叉分析(MIA)和基因集富集分析(GSEA)的基础,该分析可以从GO、KEGG、Hallmark 和其他数据库中查询获得。
Relate:鉴于其系统性,空间转录组学很适合识别基因群和组织区域之间的相似性、差异和关系。通过查询表达基因、空间重叠或发育或功能关系,可以关联斑点簇。例如RNA velocity利用未切片的转录本来推断斑点在时间上是如何相互关联的,并被应用于皮层来绘制神经发育的动力学图谱。基于RNA-seq的拷贝数变异推断识别染色体非整倍体,可用于区分恶性斑点和非恶性斑点,并识别不同的亚克隆。当两组点在空间上相邻时,可以通过使用已知数据库(如CellPhoneDB或NicheNet)检查它们的成对受体和配体来提出细胞之间的潜在相互作用模式。
健康或疾病组织的空间转录组学图谱自然有助于无偏见的探索和假设生成。即使是那些设计用于研究特定生物过程的空间转录组数据集,如时间进程研究或微扰实验,也可以探索以揭示意想不到的变化并提出新的假说。此外,空间转录组数据可以被纳入经典的假设驱动的实验设计中,使用充分有力的实验来检验一个定义明确的预测。事实上,随着空间转录技术变得更加容易,它已经准备好作为一种常规的检测方法,与流式细胞仪或RNA测序相提并论。在实验设计的指导下,空间转录组学在作为扰动或时间历程实验的读数时可以证实或证伪一个假设。每个样本都可以由一个单独的数据点进行汇总,并在不同的重复和条件下进行比较,因此需要收集足够数量的数据,以确保统计的严谨性和有效性。研究可能在同一样本的多个切片上纳入空间转录组学,以解释技术变异性,或每个条件下的多个生物重复。该假设可在模型系统、体外或体内或临床数据中进一步验证。
随着空间转录组学技术的分辨率和灵敏度的提高,与其他数据模式的集成可以提供更好的组织表征的机会。虽然目前常常未得到充分利用,但组织图像本身可用于提取高分辨率信息,尤其是当结合组织病理学领域获得的大量知识来手动识别和注释区域时。组织中检测到的形态特征,如细胞形状或细胞核大小,可直接纳入分析。深度学习也被用于从基因表达和组织学预测细胞类型注释,优于单独从两种模式预测的注释。随着可用于训练的转录组数据的增加,机器学习算法也被用于从组织病理学图像预测基因表达。这些算法不依赖于预定义的形态特征,而是通过将整个图像分解来提高性能。将空间转录组学与这种机器学习方法相结合,可以提高组织病理学的可解释性及其在临床决策中的应用,以指导治疗和告知预后。
在亚细胞分辨率下,染色质的空间组织可能为不同环境下基因表达的调控提供线索。将空间转录组数据集与基因组原位高通量成像、组织内组蛋白标记的空间分布相结合将是非常有价值的。最近,利用完整组织内的同步DNA测序对基因组组织进行空间定位已成为可能。这表明将空间基因组测序与原位转录组分析相结合的目标有望实现,从而加深我们对基因组组织和功能编码方式的理解。
用蛋白质联合检测等补充方式来增强基因表达数据,也可以阐明空间转录组学没有捕捉到的过程,如蛋白质的翻译后修饰和亚细胞定位及其在疾病中的失调。靶向蛋白联合检测可与空间转录组学同时进行,在同一组织切片上使用免疫染色,如Visium所支持的那样。DBiT-seq使用抗体衍生的DNA标签实现组织中mRNA和蛋白质的共映射。用于蛋白质检测的高通量空间方法,如MIBI、CODEX、t-cyCIF和自动质谱分析,为组织切片内的蛋白质组提供了无与伦比的快照。将这些高通量蛋白质组学方法与空间转录组学相结合的技术进步将极大地提高我们研究组织复杂性的能力。
空间转录组学领域正以指数级的速度增长。目前空间转录组学方法所面临的挑战--包括对分辨率和灵敏度的限制,以及通量和可及性--正在被迅速克服。空间转录组学方法正在与石蜡包埋组织兼容,为回顾性分析几十年来收集的生物样本打开大门。随着未来的创新,有可能对更大的组织区域进行系统化检测,以重建三维器官或生物体层面的图谱,并将转录组范围内的基因表达变化随着时间的推移进行可视化。除了克服这些技术挑战之外,未来的工作还需要开发新的计算工具和创造性的分析思维。这将使数据探索能够识别空间模式(空间转录组数据集的核心特征),并揭示潜在生物学的深刻见解。
当我们推测该领域未来的里程碑时,人类基因组计划可能是一个有用的平行项目。人类基因组初稿于2001年发表,为研究遗传变异的来源和结果提供了参考。然而,基因组不同区域的功能和调控仍在积极研究中。在空间转录组学中,未来的项目可能同样受益于研究不同条件的参考。然而,绘制每个基因在空间的表达水平图谱只是阐明组织生物学的组织原则的第一步。正是这些高分辨率细胞图谱与无假设查询的耦合,将有助于获得新的见解并揭示生理学和疾病中组织结构的显著特征。
该领域的一个关键挑战将是迭代构建一个模型,说明多细胞空间模式如何从细胞水平属性中产生。独立于空间转录组学技术,实施一个简单的原则,即每个细胞总体上与其相邻细胞最相似,这足以恢复果蝇胚胎中复杂的空间模式。基于这一理念,对空间转录组数据集的探索将使我们能够揭示指导组织水平空间组织建模的基本原则,并将有助于研究这些模式的机制基础及其结果。这些更深层次的生物学洞察将把对简单组织的理解扩展到更复杂的结构,包括发育中的生物体和患病组织,使我们更接近于征服空间前沿。
参考文献
Rao, A., Barkley, D., França, G.S. et al. Exploring tissue architecture using spatial transcriptomics. Nature 596, 211–220 (2021).
图片均来源于Nature官网和参考文献,如有侵权请联系删除。