2022-08-01 8327文献解读
目前关于空间转录组学的许多文献是技术性的,并不面向不熟悉该领域的研究人员。近日,《Genome Medicine》发表了一篇综述文章为空间转录组学提供了一个入门指南:涵盖了生物医学研究所需的可用技术、实验设计考虑和生物信息学分析。
空间转录组技术已经存在了近十年。目前商业化的技术,如10X Genomics公司发布的Visium,以及Nanostring公司的GeoMx和CosMx,已经使空间转录组学更容易获得。其他组学技术,如 "空间蛋白质组学"(目前用于描述通过基于抗体的方法对几十种蛋白质进行定向评估的术语)、染色质可及性的空间检测和空间基因组学也有新发现。同时,空间转录组已广泛应用于生物医学领域,例如以阐明组织分化中基因表达的广泛模式、空间定位的疾病机制以及癌症、神经科学和生殖生物学中驱动疾病的特定细胞类型。
空间转录组学旨在统计组织中不同空间位置的基因转录本数量。不同的技术有不同的技术参数。组织的大小可以从一个小的(<1mm2)切片到模型生物的整个器官切片;计算的基因数量可以从几十到几千甚至整个基因组;空间位置可以从整个组织域,到一个大的500μm×500μm的感兴趣区域,再到一个单细胞甚至更细。在目前的技术中,所提供的基因数量和技术效率之间往往存在权衡,即成功计数的感兴趣转录本的比例,从接近100%到低至1%。
根据最近的综述,大体上有两种方法可以在保留空间信息的同时提供转录组。首先通过显微镜对mRNAs进行原位成像。这是基于成像的空间转录组学技术的基础。当对mRNAs进行原位成像时,还必须有区分不同mRNA种类的方法,即原位杂交(ISH)或原位测序(ISS)。另一个广泛应用的方法是从组织中提取mRNAs,同时保留空间信息,随后通过高通量测序(NGS)技术对mRNA种类进行分析。这是基于测序的空间转录组学技术的基础(测序是指NGS而不是ISS)。保存空间信息的常见方法是:(1)通过直接捕获和记录位置,如通过显微切割和微流体技术,以及(2)通过将mRNAs与芯片中的空间编码探针连接。此外,现在还有了进行空间基因组和蛋白质组实验的技术,比如DNA seqFISH+、DBiT-seq、t-CycIF和CODEX等。
任何含有活性mRNA的完整组织都适用于空间转录组学。空间转录组学技术在各种生物医学分支学科中都很有用,如神经科学、癌症、免疫学和发育生物学。它们还适用于各种实验设计,包括图谱生成、非靶标假设生成和假设测试。然而,必须首先考虑不同组织和模型对不同技术的适用性。
首先,不同的组织具有不同的属性,在某些情况下,必须优化空间转录组学技术,即针对特定组织量身定制。Visium等现有技术的一个优点是,优化的组织列表涵盖了人类和小鼠的大多数系统,以及大鼠和斑马鱼的部分组织。优化的目的可能是确定组织通透性对mRNA释放的最佳持续时间。除了优化,人脑组织可能因脂褐素而表现出自发荧光,对基于成像的技术有不利的影响。一些商业方法可能需要额外的处理步骤以减少自发荧光。
其次,一些结构和基因可能难以用空间转录组技术检测。例如,稀有细胞将很难通过像Visium这样的方法进行研究,在这种情况下,一个细胞不能被单独剖析,它的转录组与周围的细胞混合。只有少数几个细胞组成的小结构也可能构成挑战。最后,一些基因如转录因子的转录可能比其他基因少,即使它们的功能可能有深刻的影响。因此,捕捉效率低的方法可能不适合研究低转录基因的空间表达模式。总的来说建议:如果研究罕见的特征,研究人员应仔细选择合适的技术,并在平行组织切片中进行免疫组化等实验,以确保所需特征的存在。
第三,组织质量可能影响是否采用空间转录组的选择。组织中mRNA质量是重要考虑因素。例如对于降解的(DV200<50%)FFPE组织或脆弱的新鲜组织,一个重复可能是不够的,特别是对于基于芯片的方法。此外,所有商业或接近商业的空间转录组学方法都使用组织切片,当将其放置在载玻片或芯片上进行剖析时,组织切片容易撕裂和变形。合并重复可以提高获得可靠样本的可能性。
第四,实验中采用的目标、设计和模型至关重要。如果目标是假设检验--例如确定少数目标基因或通路的高分辨率空间表达模式--那么就需要一种有针对性的、高分辨率的方法,如基于成像的空间转录组学或可能的空间蛋白质组学。相反,如果目的是产生假设--检查无偏的整个转录组--那么首选非靶标方法。实验设计也影响空间转录组技术是否合适。例如,如果需要许多样本,基于成像的空间转录组学技术可能是不切实际的。空间转录组学技术目前不适合涉及许多样品的实验,例如对多个实验动物的组织进行纵向评估。由于这一限制,建议空间转录组学最好应用于特征明确、可重复的实验系统,或应用于使用人体组织的明显代表性样本。例如,可以从感兴趣的组织中取一个平行的组织切片,用免疫组化法进行分析,以确定其是否适合于空间转录组学。
在考虑了组织类型、样品完整性和实验目标后,应考虑以下列出的多个技术参数:
样品数量。对于ISH和ISS方法,每个样品都是单独的,使用专业仪器重复成像,这意味着每次通常只评估一个样品。在芯片法中,可以在一个芯片上评估多个切片。
mRNA捕获效率:ISH方法通常比基于ISS的方法或基于测序的方法捕获更多的可用靶标mRNA。效率范围从基于ISH的方法的近100%到一些基于芯片的方法低至1~2%。
空间分辨率:ISH和ISS方法可以实现亚细胞分辨率。在基于测序的方法中,在固定空间分辨率的芯片上或在大于单个细胞的ROI中释放和收集mRNA。到目前为止,只有STomics方法的分辨率与ISH和ISS方法相当(<1μm)。
提供的基因数量:MERSCOPE提供多达1000个基因,Esper提供多达5000个,基于芯片的方法是无靶标的,因此提供了基因组范围的覆盖率。
基于这些因素,研究团队认为假设检验实验最适合ISH和ISS方法,如MERSCOPE、Esper和Xenium。诸如CosMx之类的无靶标但高分辨率技术也可能适用。例如,确认与空间特征相关的差异基因调控的验证实验不需要整个转录组的扩增,但将受益于基于ISH和ISS的方法提高空间分辨率和mRNA捕获效率。相反,无偏假设生成和图谱生成实验(可能具有较大的组织面积)最适合基于芯片的方法,如Visium和STomics。例如,一项旨在揭示以前未被鉴定的组织中新途径的发现实验将受益于无偏的、完整的转录组表达。
所有空间转录组学技术都需要仪器。对于ISH和ISS方法,主要仪器将是成像仪,而芯片方法需要高通量测序平台。MERSCOPE和Esper提供定制的成像仪器和软件,用于处理图像分析的预处理步骤。一些基于测序的方法需要用于定制mRNA捕获的仪器,例如GeoMx和CosMx,而Visium除了高通量测序平台,不需要特定的仪器。
许多空间技术并非检测的是真正的“单细胞”,其可以从同一组织的配套scRNA-seq数据集中获益。对于靶向技术,无偏单细胞参考可用于推断未进行空间测量的基因表达或用于将单独成像的mRNA分配给单个细胞,已发表的多个生信工具可完成上述任务。对于基于芯片的方法,通常使用单细胞参考来推断哪些细胞类型以及以何种比例导致每个捕获区域中的mRNA混合;这个过程称为去卷积。其次,在某些情况下,该参考可用于推断空间技术不能很好描述的基因的表达。总的来说,在设计空间转录组学实验时,建议在处理可分离的组织时考虑生成一个参考的scRNA-seq数据集,不过这对于像人脑这样的精细组织来说可能比较困难。
接下来,建议研究人员考虑他们选择的空间转录组学技术是否与辅助组织染色兼容。染色(例如细胞核染色),对于亚细胞分辨率的技术(例如基于成像的方法)是有利的。核染色(例如DAPI染色)或细胞边界染色,可以帮助推断细胞的位置,并从观察到的mRNA计算重建单细胞转录组。此外,一些生物信息技术(如stLearn)可以利用染色成像与测序技术的基因表达数据一起识别组织结构域和特征。
基于ISH和ISS的典型方法将通过多轮杂交读取序列或基因特异性条形码,因此图像本身没有信息。将这些图像转换为基因点矩阵需要几个步骤。首先,对图像进行滤波以去除背景和噪声。其次,将来自不同杂交轮的图像对齐,以便每个杂交轮中相同的像素位置或斑点代表相同的转录本。第三,每个点上的信号被组合成一个条形码或序列,可以用于将点与基因匹配,与任何基因不匹配的信号被过滤。最后,一个可选步骤是分割。用于预处理ISH或基于ISS的转录组学的工具通常针对特定的技术。对于Visium,10X Genomics已经发布了一个预处理管道--Space Ranger。
一些方法中的最后一个预处理步骤是分割。分割的目的是用亚细胞分辨率的空间数据来重建单细胞转录组。例如,分割可用于基于成像的数据,如MERSCOPE、Esper或Xenium等方法,通过从转录物物种推断并聚类图像的哪些区域可能包含一个细胞来重建单细胞转录组。类似的方法也可用于基于亚细胞芯片的数据,如STomics,它产生亚微米分辨率的数据,分割将基因点矩阵转换为推断的基因-细胞矩阵。有许多已发表的分割方法,例如手动分割、来自核染色的先验信息、深度神经网络、来自由scRNA-seq生成的真实单细胞参考的基因表达特征,以及一些工作流程。
预处理数据的最后一步是对基因点矩阵进行统计转换,以考虑整个组织的mRNA捕获率的差异。这对通过所有技术产生的数据都是一个重要步骤,尤其是那些捕获率较低或不稳定的技术。
对于空间数据有一系列不同的下游分析,具有不同的目标和不同的输入。空间数据可以包括原始基因点矩阵、归一化矩阵或辅助数据,例如转录组分析之前拍摄的组织学图像的推断细胞类型和组织结构域。为了给这些数据提供统一的格式,并简化和标准化空间分析,开发了Giotto、STUtility、Seurat、scanpy、stLearn和squidpy等实用程序包。他们的共同目标之一是,首先为空间数据矩阵和通过下游分析生成的相关辅助数据提供结构。后者可能包括降维(例如UMAP)、无偏聚类结果、注释和插补、映射或去卷积结果。第二个目标是提供完成所有这些过程的功能。第三,它们提供了数据可视化的功能,将空间转录组数据与叠加数据(如显微镜数据)相结合。最后,它们为质量控制(例如筛选低表达基因)、预处理和空间数据的专门分析技术提供了标准化的工作环境。综上所述,建议对生信不是特别专业的生物医学研究人员使用Seurat和Scanpy,因为它们有大量的文档和庞大的用户群体,并建议寻求更专业的空间转录组学分析流程的研究人员使用Giotto、stLearn、STUtility和squidpy。
许多scRNA-seq分析的最初目标是确定细胞类型。空间转录组学分析的一个类似步骤可能是识别空间特征,如解剖学和微解剖学结构。为了识别结构,现有的算法可以将转录组相似的点或细胞以无偏的方式分组,以揭示基因表达的空间模式。然而,专门利用空间数据和识别组织域等特征的最新方法已经被开发出来,例如BayesSpace、XFuse、stLearn等。方法的选择将取决于可用的数据:对于基于芯片的低分辨率方法,BayesSpacem可能有利于提高分辨率,但如果有组织学图像可用,stLearn能够将它们集成到空间转录组数据的分析中。
或者,与其识别样本中细胞和斑点之间的异质性,不如直接搜索显示有偏见、非随机空间表达模式的基因。Giotto的空间可变基因选择方法在速度上优于一些旧方法,如SpatialDE、trendsceek和SPARK,鉴于空间转录组学的数据集不断增大的趋势,这是一个关键的问题。Sepal是一个较新的方法,它采取了一种新的方法,模拟单个物种的观察转录物在整个样本中扩散到随机分布所需的时间,这个指标推断了物种分布的空间结构程度。分组方法可用于提高速度,但这可能会导致空间细节的损失,这取决于所用分组的大小。
目前已发表的去卷积工具较多,包括SPOTlight、RCTD、cell2location、Tangram和destVI等,Seurat和Giotto等实用软件包也提供了去卷积方法。选择去卷积技术时,研究团队建议用户考虑运行时间,因为这一步骤可能需要大量的计算时间和功率。
一些计算方法旨在结合空间转录组和scRNA-seq,不是为了去卷积,而是为了推断未检测到的基因实际上可能在哪里表达。这允许用户“填补空白”,即空间转录组数据的目标性质,或者对于某些方法,低灵敏度意味着没有检测到基因,这项任务称为插补。相反,一些方法采用相反的方法,使用空间数据集推断scRNA-seq衍生的单细胞转录组的空间映射。
早期的整合方法是Seurat,它将单细胞转录组映射到空间坐标。最近的映射方法包括SpaOTsc,它依赖于优化的传输模型将单细胞转录组映射到空间数据,还包括推断配体-受体相互作用的功能。插补方法包括基于深度学习的gimVI;Tangram使用映射步骤通知插补过程;以及SpaGE,通过域适应来对齐空间和scRNA-seq数据,从而为插补提供信息。gimVI和Tangram是基于深度学习的方法,因此方法的选择可能取决于研究人员是否可以使用GPU计算资源。单细胞转录组的映射可能对非单细胞数据有用,例如未分割的基于成像的数据或来自任何基于测序的方法数据。相反,插补将有助于推断靶向空间转录组数据中的未测量基因。
分析转录组数据的一个共同目标是根据配体和受体的表达来推断细胞间的相互作用。通常情况下,细胞-细胞相互作用推断工具结合了被证明参与细胞间相互作用的蛋白质编码基因数据库,以及从基因表达数据推断相互作用概率的算法。已经开发了几种用于此目的的技术,包括SpaOTsc、cell2cell、MISTy和CellPhoneDB v.3.0,以及一种在通用空间转录组学分析软件包Giotto中实现的技术。
鉴于技术发展的快速步伐,预计将出现新的方法,将其最佳方面结合起来,提供理想的技术,即单细胞空间分辨率和高灵敏度的基因组规模的基因表达剖析。同时,改进的多组学、辅助染色和scRNA-seq参考将使生物信息分析更加强大和灵活。FFPE组织检测的最新进展也将显著增加临床和生物医学研究的效用。
参考文献Williams, C.G., Lee, H.J., Asatsuma, T. et al. An introduction to spatial transcriptomics for biomedical research. Genome Med 14, 68 (2022). https://doi.org/10.1186/s13073-022-01075-1图片均来源于参考文献,如有侵权请联系删除。