2022-08-22 1542文献解读
今年3月Nature子刊《Nature Methods》发表了一篇关于空间转录组学的全面综述:Museum of spatial transcriptomics,作者对1987年以来有关空间转录组学的文献进行了整理回顾,并对该领域的趋势进行了深入分析,如实验技术的使用、研究的物种/组织和使用的计算方法等。
一些重要的空间转录组学技术可以追溯到20世纪70年代。长期以来,人们使用各种形式的原位杂交(ISH)来可视化空间中的基因表达。放射性ISH于1969年首次引入,用于可视化非洲爪蟾卵母细胞中的核糖体RNA和DNA,并于1973年首次用于可视化特定基因(珠蛋白)的转录本。非放射性荧光或比色ISH是在20世纪70年代和80年代初开发的,提高了空间分辨率,实现了三维(3D)染色,缩短了所需的曝光时间。早期的原位杂交是在组织切片中进行的,这使得应用于囊胚和重建3D组织结构具有挑战性;1989年,WM-ISH首次引入果蝇,并在20世纪90年代初很快适应了其他物种。
WM-ISH是20世纪90年代末和21世纪初的首选技术,在高度多路复用、高分辨率和更多定量的技术兴起之前,它已被用于在几个物种的胚胎中创建基因表达图谱,如果蝇、小家鼠和鸡;在各种小鼠器官中,如大脑、泌尿生殖道和肺;以及针对特定类型的基因,例如微RNA(miRNA)等。
许多当代技术的基础是在20世纪70年代至21世纪初的几十年间建立的。例如,紫外(UV)激光在1976年首次用于切割组织。红外(IR)和紫外LCM系统于1996年首次报道,并很快商业化。一些高度复用的smFISH技术,如seqFISH,依赖于组合条形码,即对每个基因进行颜色组合编码,这样就可以同时对更多颜色易辨的基因(最多5种)的转录物进行定量。组合条码于1989年首次在免疫学DNA FISH中报道,2002年首次用于转录本。1998 年报道了 smFISH 的第一个明确证明,将每个 mRNA 分子显示为一个点。
就如何获得空间信息而言,目前的技术大致分为五类:感兴趣区域(ROI)选择、smFISH、原位测序(ISS)、具有空间条形码的高通量测序(NGS)以及不需要先验空间位置的方法。
空间位置可以通过选择和分离已知位置和形状的ROI来获得。这可以通过物理和光学标记ROI进行分离。分离出的ROI可以用互补DNA(cDNA)微阵列或RNA测序(RNA-seq)进行分析,或解离成单细胞进行scRNA-seq。
物理显微切割包括LCM、2000s voxelation和Tomo-seq。自1999年以来,迄今为止使用最广泛的显微切割技术是LCM,它已被用于生物各领域,如肿瘤学、神经科学、免疫学、发育生物学和植物学。结合LCM和Tomo-seq,3D中的空间转录组可以像Geo-seq一样进行分析,尽管空间分辨率有限。一种创新的物理显微解剖方法是STRP-seq,它将相邻的组织切片以不同角度切成条状,并以基于射线的计算机断层扫描算法为灵感,在3D中重建基因表达模式。人工解剖通常被用来沿着植物的一个空间轴线剖析基因表达。
光学标记的ROI包括NICHE-seq,SPACECAT、ZipSeq、GeoMX等。
从时间上看,当前时代开发的下一项技术是高度复用的单分子FISH(smFISH),它始于2012年的原型(seqFISH),依靠超分辨率显微镜(SRM),通过将不同颜色的探针与转录本杂交,同时对酵母中的32个基因进行分析,然后推断出存在颜色的相对位置。现在不再需要SRM了;2014年,seqFISH发表了一篇文章,在这篇文章中,每轮杂交中每个基因都会显示一种颜色,在下一轮杂交之前,探针会被剥离,以获得条形码中的下一种颜色。同一基因的所有转录本都有相同的条形码。四种颜色和8轮杂交(48=65,536)足以编码人类或老鼠基因组中的所有基因。在实践中,会进行一轮纠错杂交,因此,如果一轮杂交的信号缺失,基因仍然可以被区分出来。
最近,在一个基于RNA序列探测目标(RNA SPOTs)的seqFISH版本中,“颜色”本身是一个由杂交序列热编码的颜色,将调色板扩展到每个通道20个“颜色”,并能够分析10000个基因。
另一种smFISH技术是MERFISH,它使用不同的条形码策略,其中每个基因都由二进制代码编码。由于只有荧光团被去除,而探针没有被剥离,MERFISH的无数轮杂交比seqFISH的杂交耗时更少。大多数其他基于smFISH的技术,如HybISS和split-FISH,使用类似seqFISH或MERFISH的条形码。
ISS 方法通过测序产生空间转录组信息,通常通过连接 (SBL)、基因条形码(靶向)或 cDNA 的短片段(非靶向)在原位进行测序。2013年的ISS(后来由Cartana商业化)将寡核苷酸连接在RNA扩增上进行多路并行原位分析(BOLORAMIS),每个探针使用一个查询库,就像在组合探针锚连接(cPAL)中那样,对基因条形码进行测序。荧光原位测序 (FISSEQ) 和后来对 ExM 的改进(称为 ExSeq),使用 SOLiD,每个探针使用两个查询碱基来对环化和 RCA 扩增的 cDNA 进行测序。STARmap通过动态退火和连接(SEDAL)减少错误的测序对基因条形码进行测序。BAR-seq也使用基因条形码放大探针,但使用合成测序(SBS)代替SBL对条形码进行测序。
转录物的空间位置也可以通过在原位阵列上捕捉组织切片的转录物来保存。这种阵列可以通过在商业微阵列载玻片上打印点条形码、唯一分子标识符(UMI)和poly-T寡核苷酸来制备,以捕获多聚腺苷化转录物,如空间转录组(ST)和Visium技术。它们也可以是具有分池条形码、UMI 和poly-T寡核苷酸的 Drop-seq 样珠子,以单层的形式分布在载玻片上(如Slide-seq)或限制在载玻片蚀刻的孔中(如HDST),随后使用原位 SBL 定位珠条形码。另外,在DBiT-seq中,微流控通道生成阵列,用于在一个方向上沉积一种条形码,然后在垂直方向上沉积另一种条形码,将正交条形码连接起来,这样每个点都可以用唯一的成对组合来识别。NGS条形码技术通常用于Illumina的3 '端测序,而Visium已经用于Nanopore的长读测序。
NGS条形码技术已被应用于大面积的组织。然而,它们不具备单细胞的空间分辨率。常用的Visium的斑点为六边形阵列,中心距100µm,直径55μm。Slide-seq的珠子直径为10μm,HDST为2μm。Slide-seq和HDST使用的珠子尺寸小于单细胞,但它们不一定能提供单细胞的分辨率,因为一个珠子可以跨越两个或多个细胞。DBiT-seq的分辨率由通道宽度决定(50、25或10μm)。最近,斑点大小可以减少到1μm以下,RCA扩增的DNA纳米球直径小到0.22μm,斑点条码沉积在Stereo-seq中间隔0.5或0.715μm的孔中,以及Seq-Scope聚合酶克隆(polonies),空间条形码中心对中心约0.6 μm,位于Illumina流动细胞上,该细胞被重新用于捕获组织切片的转录本。另一种基于多聚物的方法:PIXEL-seq,实现了约1.22微米的斑点直径,但与流动池不同,PIXEL-seq在每个多聚物周围没有太多的间距。XYZeq和sci-Space等技术已经被开发出来,用于分离空间条码点中的单细胞或细胞核,以进行scRNA-seq,因此数据具有单细胞转录组的分辨率,但没有空间分辨率。
已经开发了一些技术来保存计算重建空间基因表达模式所需的信息,而无需知道或收集空间位置。其中一项技术是DNA microscopy,它记录了cDNA之间的接近程度,该信息可用于重建转录本的相对位置。术语“空间转录组学”的变体也被用于描述将转录本定位到细胞器的技术(如APEX-seq),尽管没有记录空间坐标。
转录组只是细胞功能的一个方面。其他方面,如蛋白质组、神经元连接组和三维染色质构象对细胞功能也很重要,一些方法已被开发出来,在同一细胞中与转录组一起分析。对于蛋白质组,寡核苷酸标记的抗体被用来检测感兴趣的蛋白质,标志着蛋白质种类的寡核苷酸可以用基于smFISH的方法检测。这种抗体panels已与转录组学结合,如DBiT-seq、SM-Omics、GeoMX DSP和MERFISH。对于3D染色质构象,MERFISH和seqFISH+已被用于可视化染色质结构,通过靶向DNA基因组位点或新生转录本的内含子。对于神经元连接体,也可以将多路转录本量化与神经元投影追踪相结合。此外,BAR-seq最初设计用于ISS通过对注入大脑的病毒引入的神经元特异性条形码进行测序来追踪轴突,但后来也被用于序列基因条形码。此外,虽然不是一个组学,但在相同的细胞中,在转录组分析之前已经记录了电生理学,例如在外植的人类神经元中使用膜片钳,然后使用HCR–smFISH,在培养的心肌细胞中使用细胞外电极,然后在electro-seq中使用STARmap。
接下来,作者讨论了不同类型技术在高检测效率、全转录组分析、高空间分辨率,有时还包括更大的组织面积之间的权衡,以及与技术选择相关的实际因素,如FFPE兼容性和成本/可用性。
高度复用的smFISH技术往往在这方面表现出色,与非条码smFISH相比,汉明距离4 MERFISH的效率约为95%;多轮杂交往往会降低效率,部分原因是丢弃了具有无法纠正错误的条形码。NGS条形码技术的效率往往较低。对于同一组织类型中的特定基因,ST检测到的UMI数量约为非复用smFISH检测到的每单位面积转录点的6.9%,与scRNA-seq每个细胞分析的检测效率相当。Visium的效率似乎比ST的效率高一些,而DBiT-seq的效率甚至更高,与smFISH相比,每个区域的效率约为15.5%。亚微米技术的效率,在同一组织中每单位面积的UMI数量,可能与Visium的效率相当。ISS的效率往往较低,部分原因是逆转录(RT)和SBL的效率低下。而scRNA-seq技术的检测效率在3%到25%之间,Cartana ISS和FISSEQ的检测效率分别为~5%和~0.005%,STARmap只比scRNA-seq好一点。然而,与smFISH相比,ExSeq表示每个细胞的检测基因的效率高达62%。较新的技术倾向于跳过RT,使挂锁探针在RNA模板上的连接更有效,如BOLORAMIS和基于杂交的RNA ISS(HybRISS),或者用类似seqFISH的条形码替代SBL,如HybISS,以提高检测效率。
使用一组已知探针不针对特定基因的技术是全转录组范围的,如ROI选择后进行NGS, NGS条形码(在poly-A捕获的转录本上进行NGS),以及非靶向ISS,如FISSEQ和非靶向ExSeq。然而,这些覆盖整个转录体的技术往往具有较低的检测效率。使用某些需要基因探针panels的技术来量化超过10,000个基因的转录本是可能的,例如seqFISH+、MERFISH和GeoMX WTA,但与NGS不同的是无法检测到未被探针靶向的新转录本。
高度复用的smFISH所能检测到的基因数量受到光学拥挤的限制,在MERFISH和ExSeq中使用了扩张显微镜来解决这个问题。然而,扩张减少了每个视场覆盖的组织量,从而限制成像通量。
基于smFISH-和ISS-的技术具有单细胞和单分子分辨率,尽管细胞分割可能具有挑战性。此外,基于smFISH和ISS的技术可以应用于被清除的厚组织切片,尽管在这种情况下分析的基因数量比大多数二维(2D)高度复用的smFISH研究小得多。所有其他类型的技术都需要组织切片,因此仅限于2D或3D,z分辨率仅限于切片厚度,冷冻切片通常至少为10μm。虽然存在亚微米分辨率的NGS条形码技术,并且LCM和GeoMX的ROI原则上可以是单细胞或更小,但由于单细胞或亚细胞分辨率下转录物检测的敏感性不足,这些类型的技术往往具有较低的空间分辨率,如Visium为55μm,GeoMX为几百微米(700×800μm)。
总的来说,检测效率较低的技术往往更适合分析较大的组织区域,而对于smFISH,细胞数量和基因数量之间似乎存在权衡。在当今时代的空间转录组学中,几毫米宽的组织切片(如小鼠大脑冠状切片的大部分)被认为很大,可以放入Visium或ST组织捕获区域,增加组织面积和测序深度以提高灵敏度将增加测序成本。Cartana ISS和Hybis也被用来分析几毫米宽的大面积组织,但只有大约100个基因。HybISS的一个优势是强大的RCA信号和较少的光学拥挤,因为较低的检测效率有助于降低放大率(×20;MERFISH使用×60),从而加快成像速度。虽然大多数高度复用的smFISH数据集保留在数百个基因上,但在报告细胞数量的研究中,每项研究的细胞总数有所增加。ROI选择技术通常用于少量ROI,因为选择大量ROI并单独处理它们而无需空间条形码是一项劳动密集型工作。然而,当高空间分辨率没有那么重要或实用时,可以选择分辨率非常低的ROI来覆盖更多组织,如Allen Human Brain Atlas中的LCM数据集。
虽然大多数技术最初是为冷冻切片开发的,但有些与FFPE兼容,因为这是一种常见的组织存档,有时可能是唯一可用的组织类型。在基于smFISH的技术中,RNAscope与FFPE兼容,但在FFPE中一次只能分析12个基因,而在冰冻切片中只有48个。在NGS条形码技术中,Visium和DBiT-seq与FFPE兼容,但由于存储中的交联和RNA片段化,FFPE组织中每个点检测到的UMIs和基因数量比冷冻组织低5~10倍左右。长期以来,LCM一直被应用于FFPE组织,甚至在单细胞分辨率下使用敏感的SMART-3Seq。GeoMX不仅与FFPE兼容,而且主要用于病理人体FFPE组织。
虽然已经开发了许多新技术,但大多数技术从未传播到其起源机构之外。在那些已经传播得很远的技术中,最受欢迎的往往是商业平台,如LCM、10X Visium及其前身ST、Cartana ISS(由10X收购)和Nanostring GeoMX。此外,许多主要机构拥有NGS的核心设施,降低了购买新设备和培训单个实验室人员的成本。Tomo-seq也得到了推广,可能是因为它易于用标准设备实现。相比之下,基于smFISH的技术迄今尚未广泛传播,可能是由于复杂的自制流体系统、较长的成像时间、TB级的图像和昂贵的探头。然而,一些smFISH技术正在通过自动成像和流体平台商业化,例如由Vizgen作为MERSCOPE商业化的MERFISH,以及另一种基于smFISH的技术,Resolve Biosciences的Molecular Cartography platform。此外,Rebus Esper可以通过编程实现不同smFISH技术的自动化,并能像Illumina测序那样在线处理图像,而且已经被用来实现osmFISH的自动化。随着新的自动化商业平台的出现,基于smFISH的技术可能会越来越流行,特别是如果核心设施采用此类平台。
高通量空间转录组学数据的处理和分析需要新的方法和工具,特别是对于图像预处理、scRNA-seq数据的空间重建、NGS条形码数据的细胞类型去卷积、空间可变基因的识别以及细胞-细胞相互作用的推断等问题。
上游数据分析将原始数据转换为更适合生物解释的形式,并依赖于数据收集技术。对于基于smFISH和ISS的方法,原始数据由荧光点图像组成,必须对其进行处理,以识别转录点,将点与基因匹配,并将点分配给细胞。其通常使用经典的图像处理工具包括高帽滤波(top-hat filtering)、去除背景,平移对齐来自不同轮杂交的图像,分水岭分割算法进行细胞分割。Ilastik中的机器学习、DeepCell等深度学习包以及结合scRNA-seq数据的其他工具也可以用于细胞分割。然而,如果不将质膜可视化,细胞分割的准确性是有限的。一些分析,如组织区域的识别,可以在没有细胞分割的情况下进行。starfish软件包的开发是为了提供一个统一且有良好文档记录的用户界面,以处理来自不同技术(如seqFISH、MERFISH和ISS)的图像,但尚未被广泛采用。
scRNA-seq技术的改进激发了利用高分辨率转录组定量与空间转录组学数据的互补性的新方法。对于非转录组范围的smFISH和ISS数据,在空间数据中没有剖析的基因的表达模式可以用scRNA-seq数据进行估算,方法是将分离的scRNA-seq细胞映射到空间参照物上,或者用scRNA-seq的表达谱直接估算空间中的基因表达。空间的基因表达也可以从scRNA-seq中推算出来,而不需要明确地将scRNA-seq细胞映射到位置。一个常见的方法是将空间和scRNA-seq数据投射到一个共享的低维和无批处理的潜空间,然后通过将空间细胞投射到潜空间来估计基因表达。这种方法的例子包括Seurat3和gimVI。当一些多组学数据的空间技术不可用时,这些方法也可用于为单细胞多组学数据添加空间背景。
在非单细胞分辨率的空间数据中(如来自ST和Visium的数据),scRNA-seq数据可以明确斑点或体素的细胞类型组成。负二项式模型和非负最小二乘法(NNLS)是细胞类型去卷积方法的共同原则。基于负二项式的方法包括stereoscop和cell2location。在RCTD中,基因表达模型改为泊松模型,比负二项模型更简单。细胞类型去卷积也可以通过将每个点的基因表达建模为负二项分布的速率参数之外的细胞类型特征的加权和来进行,而加权是用NNLS推断的,例如AdRoit。细胞类型特征可以是来自scRNA-seq的非负矩阵分解(NMF)细胞因子,如NMFreg和SPOTlight中分配给细胞类型。细胞类型的权重可以被正则化或阈值化,以限制分配给每个点细胞类型的数量。
流行的scRNA-seq数据分析流程,如Seurat、SCANPY和SingleCellExperiment都增加了空间数据的功能,以促进空间位置的基因表达和细胞或斑点元数据的可视化。同时也已开发了用于空间数据分析的软件包,如Giotto和STUtility。Seurat和Giotto也实现了识别空间可变基因的基本方法。此外,Giotto还实现了ST和Visium点的细胞类型富集鉴定、基因共表达和基因表达与细胞类型共定位之间的关联鉴定、空间区域鉴定等方法。
空间可变基因通常使用三种方法测定:高斯过程回归(GPR)及其对泊松和NB的概括,拉普拉斯分数法(LaplacianScore)和莫兰指数(Moran's I)。基于GPR的方法将基因表达或泊松或NB基因表达的速率参数建模为GPR,并发现模型是否更好地描述了具有空间项的数据。基于LaplacianScore的方法识别表达更好地反映空间邻域图结构的基因。细胞的位置也可以建模为以基因表达为标记的空间点过程;空间可变基因可被识别为与位置相关的标记。为众多基因拟合GPR模型可能很耗时,特别是在使用马尔科夫链蒙特卡洛(Markov Chain Monte Carlo)的贝叶斯方法时。基于LaplacianScore的方法中使用的互换检验也会很耗时。由于基于GPR和LaplacianScore的方法都是为了识别空间自相关,有时会直接使用经典的空间自相关指标Moran's I来识别空间可变基因,如Seurat v3及以上版本。MERINGUE使用Moran's I的本地版本。Moran's I及其显著性检验在成熟的本地空间软件包中实现,运行起来很方便快捷,但其统计能力可能比基于模型的方法差。
空间信息还可以识别潜在的细胞-细胞相互作用。这通常是在了解配体-受体(L-R)对的情况下完成的,并且可以测试哪些L-R对更可能在相邻的细胞或斑点中表达,或者两种细胞类型是否更可能同时表达配体和受体。来自空间点过程的交叉类型L函数可用于找到共定位的细胞类型。
还有许多其他类型的下游分析对空间转录组学分析是有用的,包括识别原型基因模式、转录组定义的空间区域、推断基因-基因的相互作用、亚细胞转录物定位以及从H&E图像推断基因表达。
LCM、Visium、ST、GeoMX DSP和Tomo-seq已被最广泛采用。就分析的组织而言,当前技术已广泛用于表征人体组织、肿瘤(尤其是乳腺肿瘤)和不一定具有定型结构的病理组织。在SARS-CoV-2大流行中,GeoMX DSP已用于新冠肺炎死亡者肺部尸检的空间转录组分析。一些经过处理的数据和相关的空间可变基因可以从SpatialDB下载并可视化。除了大量无法手动整理的LCM文献外,当前绝大多数研究都是在人类或小鼠上进行的,大脑是研究最多的健康器官,而肺部(尤其是由于新冠肺炎)和乳腺肿瘤也经常在人类身上进行研究。特别是,“通过推动创新型神经技术开展大脑研究(BRAIN)计划”正在构建人类、小鼠和非人灵长类动物大脑的多模式图谱,包括MERFISH和seqFISH等空间数据。
在 "数据分析 "部分提到的所有软件包都是开源的,用R、Python和Julia等语言编写。在主要涉及新数据和探索性数据分析包的研究中,下游分析主要使用开源编程语言,如R、Python和C++。虽然MATLAB仍然很流行,但它的使用并没有像R和Python那样上升。R在下游分析和探索性数据分析方面更受欢迎,但Python和C++在软件包开发方面更受欢迎。
空间组学相关的数据、工具和研究成果正在迅速增长。未来我们:
1)首先,可以做更多的工作来改善数据收集技术。例如当前的大多数技术需要组织切片。应该开发高度复用的整体smFISH和组织清除流程,以及更有效的计算工具,将可能来自多个个体甚至发育阶段的多个切片对齐,以将当前技术扩展到三维和时空分析。未来的技术也可能将当前的毫米级扩展到厘米级,并跨越其他模式,如表观基因组学和代谢组学,以提供更全面的细胞功能图。此外,smFISH和ISS技术,通过信号放大来减少每个转录本的探针数量,可以被调整为针对特定同工酶的外显子或非翻译区,而不是一个基因的所有转录本。
2)其次,当前的数据尚未整合到综合数据库中。需要开发整合、查询和可视化来自多个来源的数据的综合数据库。
3)第三,在LCM之外,当前的技术高度关注人类和小鼠,而对其他物种(如植物和无脊椎动物)的潜在空间转录组学研究则相对滞后。人类和小鼠以外其他生物物种联盟的技术现代化为开发有用的空间转录组学图谱提供了很大的希望。
4)一个开源、文档化、可互操作和可扩展的工作流程,以及一个集成、易于使用的界面,将大大简化空间转录组学数据的收集和分析。目前,对于探索性数据分析之外的任务,用户仍然经常需要学习新语法、转换对象类型,甚至学习新语言来使用一些数据分析工具。
参考文献Moses L, Pachter L. Museum of spatial transcriptomics[J]. Nature Methods, 2022, 19(5): 534-546.图片均来源于参考文献,如有侵权请联系删除。