2021-08-09 3850文献解读
在过去的十年中,大量组学数据集被用于人脑研究。来自美国的研究人员在《Briefings in Functional Genomics》发表综述文章,总结了健康对照组和神经精神疾病人脑的主要多组学数据资源,包括精神分裂症、自闭症、双相情感障碍、阿尔茨海默氏病、帕金森病、进行性核上性麻痹等。回顾了近年来单细胞技术在大脑研究中的发展(如单核RNA-seq、单细胞ATAC-seq和空间转录组学),同时进一步研究了组织和单细胞数据的综合多组学分析方法。最后讨论了人脑疾病多组学研究的局限性和未来方向。
神经精神障碍正成为全世界的一个重大负担。了解人脑是最终找到神经精神疾病治疗方法的关键步骤之一,研究人类神经精神疾病通常有两大类:遗传研究和生物标志物研究。而遗传和生物标记物研究都严重依赖多组学数据来实现其目标。
研究团队调查了产生多组学数据的主要队列或项目,这些数据一般用于人类生物学或特定于神经精神疾病。
注:由于篇幅限制,项目/联盟名单可能不完整,还有许多其他重要的组学资源未在此列出。
ENCODE:最初于2003年启动,旨在确定约1%的人类基因组的调节功能。尽管ENCODE主要关注细胞系,但最近的更新包括一些来自人脑、原代神经元或神经元细胞系的组学数据(即截至2020年12月在人脑器官中进行的449次实验)。
Roadmap Epigenomics:主要从人类血液和22种组织类型收集RNA-seq、ChIP-seq(组蛋白)、DNase-seq和甲基化数据。截至2020年12月,ENCODE实验矩阵显示了Roadmap中发布的2154个多组学人类数据集,包括158个与成人和胎儿人脑相关的数据集。
FANTOM:在过去20年中,FANTOM联盟收集了大量资源,以了解健康人/小鼠细胞和组织的转录调控,包括非编码转录。FANTOM数据已被用于多种多组学工具,例如HACER,整合FANTOM 5、表达数量性状位点(eQTL)数据库、来自ENCODE的转录因子结合位点(TFBSs)、新生RNA测序(GRO/PRO-seq)和Hi-C数据,包括脑细胞特异性分析。
GTEx:旨在描述不同个体和人体不同组织的基因表达水平的变化。GTEx有多个脑区的转录组图谱,样本量相当大。
OmicsDI:是一个搜索多组学数据集的平台。它整合了来自多个数据库的蛋白质组学、基因组学、代谢组学和转录组学数据集。截至2020年12月,使用关键词“大脑”搜索产生了116261个结果,其中10个是多组学数据集。
Allen Brain Atlas:收集了两个个体的大脑约900个神经解剖切片的表达谱和MRI检测结果,有效地证明了基因表达与空间定位相关。进一步的发展包括收集发育中的人类和小鼠大脑、老化、痴呆、创伤性脑损伤(TBI)和IVY胶质母细胞瘤图谱项目的时间和空间基因表达。最新补充的内容包括人类、小鼠和恒河猴皮层、海马、脊髓各部分的scRNA-seq和原位杂交,以及丘脑的比较细胞解剖学信息。虽然基因表达是Allen Brain Atlas的主要重点,但电生理和形态学数据的可用性使其成为大脑空间转录组学的独特资源。
PsychENCODE:PsychENCODE 数据以最大的大脑集合(2793 个独特的捐赠者)为特色,包括精神分裂症、双相情感障碍和自闭症在内的对照和疾病组数据。额叶皮质是该联盟研究的主要脑区。PsychENCODE 数据是评估人脑组学群体变异的最佳数据之一,其正在进入其第二阶段,重点是单细胞数据。
AMP-AD:其目标是应用尖端的系统和网络生物学方法,将来自2000多个阿尔茨海默病(AD)各阶段的人脑的多维人类分子数据(基因组、表观基因组、RNA、蛋白质组)与临床和病理数据相结合。其中贡献最多多组学数据的三个最大的AMP-AD研究是ROSMAP、MSBB和MayoRNAseq。AMP-AD数据集连同其他AD项目被托管在最大的AD研究数据门户之一:https://adknowledgeportal.synapse.org。
AMP-PD:旨在通过对现有队列中的PD患者数据和生物样本进行深入的分子特征分析和纵向临床分析,确定和验证帕金森病(PD)的诊断、预后和/或疾病进展生物标志物。总共有8461个RNA-seq数据集(来自n = 3274名参与者)以及统一的临床数据可在AMP-PD网站的当前版本中获得,为研究帕金森病的进展提供巨大的资源。AMP-PD项目将其数据托管在谷歌云平台(GCP),并建议用户通过Terra平台(http://app.terra.bio/)访问、运行分析工具并进行合作。
BRAINcode:BRAINcode的建立是为了通过对人类神经元基因组、转录组和表观基因组的综合分析,解码易患神经退行性疾病的大脑神经元的功能。在最初的版本中,它包括大约100个死后大脑中激光捕获的50000个神经元的ribo-depleted总RNA的测序结果。BRAINcode的新阶段重点是对另外200个人类大脑进行单核RNA-seq、单核ATAC-seq、空间转录组和单细胞eQTL。相关网站:http://www.humanbraincode.org
CommonMind:CMC从四个独立的脑库中生成了一个公共的功能基因组数据资源,这些数据来自于1000个个体的背外侧前额叶皮层,包括501个对照组,353个被诊断为精神分裂症的个体和120个双相情感障碍患者。基因组数据包括980人的RNA-seq和SNP分型以及269人的ATAC-seq数据,其中264人是RNA-seq的子集。原始数据和经过处理的数据都可以在Synapse平台上获得,网址是:http://CommonMind.org。
BrainSeq:BrainSeq是Lieber脑发育研究所和制药公司领导的一个项目,旨在描述主要神经精神疾病和对照组样本中不同大脑区域转录组的遗传和表观遗传调控。该联盟的第一阶段包括对738名跨越整个生命期和三个主要的精神病诊断组(精神分裂症、严重抑郁症和双相情感障碍)的受试者进行DLPFC polyA+ RNA-seq。第二阶段扩大到海马区,对551名跨越整个生命期的受试者和成年精神分裂症患者进行RiboZero-treated total RNA-seq。第二阶段还包括Illumina 450 k芯片数据,用于海马和DLPFC的DNA甲基化分析。同时BrainSeq还提供了发育和精神分裂症相关的基因图谱和eQTL资源:http://eqtl.brainseq.org。值得注意的是,Lieber研究所还发起了非洲血统神经科学研究计划。
NeMO:是一个数据存储库,专门用于存储和共享由BRAIN Initiative和相关脑研究项目产生的组学数据。NeMO数据包括人类、小鼠和狨猴的转录活性、甲基化、组蛋白修饰谱和染色质可及性。目前在BICCN网站上对人类数据的搜索显示,有418个样本的scRNA-seq(n = 412)和scATAC-seq(n = 6)可以公开访问。更多人脑单细胞组学数据(例如,用于定义细胞类型特异性3D表观基因组的单细胞PLAC-seq、ATAC-seq、RNA-seq数据)可在NeMO上通过受限访问获得。
大脑细胞的高度复杂性促使大家应用单细胞多组学的方法来了解单细胞水平的基因组调控。Darmanis等人的研究是最早从466个健康人大脑皮层细胞中提供单细胞转录组数据的,随后的工作包括在神经发生过程中进行scRNA-seq时间进程分析,揭示谱系特异性轨迹和神经源性转录因子的动力学。单细胞甲基化数据也被用来揭示人类皮层中的神经元亚群。例如ROSMAP队列中48个阿尔茨海默病患者和健康人的单细胞转录组分析,已经扩展到80K细胞,揭示了对疾病病理生理学前所未有的见解。最近人类大脑的时空细胞图谱项目(STAB)通过分析13个可用的人脑scRNA-seq数据集,定义了20个脑区和11个发育期的42种细胞亚型。尽管人类单细胞数据仍然稀缺,但各种数据资源平台提供小鼠scRNA-seq数据,其中DropViz(http://dropviz.org/,690K细胞)和10X Genomics(1.3 M细胞)目前是最大的。
scRNA-seq技术已经更新到包含其他多组学信息层,开放染色质是最近增加的一种。例如一项研究从来自成年人视觉皮层、额叶皮层和小脑的60000多个细胞进行了单核RNA测序(snDrop-seq)与单细胞开放染色质分析(scTHS-seq)的整合,证明了整合分析将获得细胞亚群的更好分辨率,以及从一个组学数据预测另一个组学数据的能力。相关研究的详细信息可通过如下链接获取:https://github.com/mdozmorov/scRNA-seq_notes#brain.
通过整合基因分型芯片或WGS的遗传变异信息,scRNA-seq还可以在不同的细胞类型和动态过程中定位eQTLs,为了将这项技术应用于大规模的群体遗传学研究,Luke Franke等人成立了单细胞eQTLGen联盟(sc-eQTLGen),旨在确定致病遗传变异影响基因表达的细胞背景。
空间转录组学的最新发展,如10X Genomics Visium、Slide-seq、HDST、MERFISH和LCM-seq,能够明确地识别特定位置的单细胞基因表达。这些技术正开始应用于揭示人类DLPFC的分层结构,这种结构以不同的基因表达为标志。重要的是,空间转录组学与其他数据(如神经精神基因组数据集)的整合,证明了疾病相关信号的位置特异性,开启了整合多组学数据分析的新篇章。
另一个补充是脑细胞中的三维染色质组织。一些研究使用Hi-C及其变体将人脑的三维基因组学与基因表达、组蛋白修饰(ChIP-seq)、开放染色质(ATAC-seq)和GWAS信号相结合,证明了基因组空间组织的重要性。染色体构象捕获技术已在单细胞水平上得到扩展,并与基因表达相结合,揭示了三维结构和基因表达之间的关联。最近的发展包括在单细胞中同时进行染色质构象捕获和甲基化的技术。
多组学数据整合的目标大致可分为三类:1.基于多组学特征的疾病亚型和分类;2.预测各种应用的生物标志物;3.获得生物学见解。例如在一项关于中风的研究中,研究人员回顾了多组学数据(包括蛋白质组学、基因组学、转录组学和代谢组学)的综合分析,对中风发病机制、治疗靶点的识别和生物标记物的发现提供了有用的见解。实现这一分析结果的方法可分为早期和晚期整合,前者将组学矩阵组合成一个矩阵,然后对其进行分析,后者分别分析每个组学模式,然后结合结果。或者,集成方法可分为无监督(Matrix Factorization, correlation-based, Bayesian methods, network-based methods)或有监督(network-based methods, multiple kernel learning),经过基准测试,这些方法很多都可以在mixOmics R包中实现。最近开发的OmiVAE用于从多组数据中提取低维特征并对样本进行分类,在TCGA泛癌症多组学数据集中OmiVAE的平均分类准确率为97.49%,显示出比其他现有方法更好的性能。
整合单细胞组学数据的方法包括使用非负矩阵分解(NMF)或类似的降维或低维嵌入方法。将scRNA-seq与其他单细胞数据集成的示例方法是LIGER,这是一种基于NMF的方法,可用于跨条件、技术(scRNA-seq、甲基化、空间转录组学)或物种(人类和小鼠)集成和分析多个单细胞数据集。一种基于共享嵌入的方法Harmony已被用于整合scRNA-seq和空间转录组学数据。在Seurat R软件包的Signac扩展中,使用LSI和TF-IDF程序对scRNA-seq和scATAC-seq进行了整合。利用降维和聚类,ArchR R软件包在整合scATAC-sec和scRNA-seq数据时表现优于Signac。基于网络相似性的CellWalker方法已被证明对scRNA-seq和scATAC-seq数据的稀疏性和噪声具有更强的稳定性,其已被应用于发育中的人类大脑研究。MAESTRO工具套件利用综合数据分析的最佳实践(如基于图形和基于密度的聚类,从染色质可及性建模基因调控潜力)来全面整合scRNA-seq和scATAC-seq数据,并提供血液和大脑特定的细胞特征来注释细胞群。三维基因组学整合方法也开始出现,最近提出了一种基于NMF的方法,利用scRNA-seq和scATAC-seq对大量Hi-ChIP信号进行亚种群特异性解旋。这些方法展示了单细胞多组学数据整合的潜力,揭示了对复杂细胞系统(如大脑和神经精神疾病)的全新生物学见解。
最后研究团队还通过将多组学数据整合到PsychENCODE和其他联盟项目中,进行了精神分裂症的多组学研究。
注:具体分析内容详见文献原文。
理想情况下,相关研究需要涵盖所有生物水平、从DNA到蛋白质的中间步骤、从干细胞到死亡的所有发育阶段、从神经元到神经胶质细胞的所有细胞类型以及从药物未使用到接受各种治疗的患者的所有状态的多组学数据。实际上,所需数据中只有一小部分已经生成并可供使用。未来1或2年内将有更多的scRNA-seq、ATAC-seq数据可用。空间转录组、Hi-C数据将有助于更好地理解大脑转录组及其调控。越来越多的eQTL和其他分子QTL将在不同发育阶段、不同种族背景和性别的大脑、脑细胞上产生。
一些特定的组学数据仍然不足。DNA甲基化数据、microRNA表达和蛋白质组学数据是可以更好地覆盖的例子。在Illumina停止生产试剂盒后,Ribo-seq数据不太可能会增加。脑细胞中转录因子的ChIP-seq数据是一个主要的数据类别,不幸的是,它在很大程度上是缺失的。线粒体相关的基因组学和表观基因组学还没有得到足够重视。
我们还应该注意到,组学数据对性别、种族遗传背景和其他变异很敏感,而在大多数公共数据库中,这些影响并没有很好地呈现出来。种族多样性的数据仍然普遍不可用。2019年,研究人员发现∼78%的GWAS个体为欧洲血统。大脑组学数据的多样性甚至更小。例如,在当前的AMP-PD版本中,只有不到4%的参与者是非白人/白种人。对于旨在更具包容性的研究来说,这是一个巨大的问题。非洲血统神经科学研究等计划有望填补这一空白。
人脑研究中的大多数单细胞转录组数据实际上是单核RNA-seq,而不是单细胞RNA-seq,这是因为目前的技术难以在不破坏细胞膜的情况下从死后冷冻脑组织中提取完整的神经元细胞。此外,除了一些单细胞总RNA测序的方法(例如SuPeR-seq、MATQ-seq、RamDA-seq和DART-seq),大多数当前的单细胞RNA-seq研究都是基于富含polyA的RNA测序方法,使得许多非polyA RNA(例如miRNAs、piRNAs、circRNAs、ERNA)被排除在外。单细胞多组学的整合还受到单一模式数据问题的影响,例如单细胞数据中的缺失以及细胞簇定义和注释中的分辨率。另外对单细胞/整合分析工具进行验证和基准测试也是迫切需要的。
研究神经系统疾病的典型方法是从健康人和患病者身上采集人脑标本。与可广泛获取的血液标本相比,脑标本通常是从死后组织中获取的,这有其局限性:组织降解是主要原因。RNA对死亡后的时间特别敏感。另一个限制是尸检组织只能提供生物系统的快照,这可能不足以揭示症状和治疗反应的动态。培养的细胞和新开发的脑类器官是产生多组学数据的重要选择,具有相对均匀的环境因素和细胞组成的优势。
除了宿主本身,与微生物组学数据的整合也正在成为一个有趣的方向。例如最近对阿尔茨海默病的研究表明,肠道感染可触发阿尔茨海默病患者大脑中淀粉样蛋白团的产生。虽然这些肠-脑联系背后的机制在很大程度上尚不清楚,但宿主和微生物之间的多组学整合可能会带来新的见解。
人类神经精神疾病的大多数多组学分析是横向的(例如,病例与对照、疾病亚型)。纵向分析组学,结合临床措施和治疗结果,可以提供更全面的评估,以改善疾病风险预测、早期发现和更好的治疗。先前的纵向多组学研究已经成功地识别了少数疾病的疾病标志物,但在神经精神疾病中没有太多。研究团队期望在神经精神研究中有更多的纵向组学数据。这种纵向数据通常来自周围组织。因此,需要对大脑和周围组织进行多组学比较分析以验证相关性。
许多多组学研究产生了相关性的结果。例如,eQTL分析是为了确定遗传变异和基因表达之间的相关性。许多所谓的 "生物标志物 "实际上是与疾病、性状或状态有关/相关的生物分子信号。相关关系并不能证明因果关系,一些统计学上的精细映射方法已经被开发出来,以暗示GWAS输出的潜在因果关系。机器学习和深度学习已经被用来寻找多组学数据中的模式和相关性,这在很多情况下可能足够有效(如肿瘤识别、疾病预测)。然而,如果一个模型能够捕捉到因果关系,那么它将更具有普适性。此外,如果能从结果中分辨出原因就能更好地找到治疗疾病的方法。一些互补的方法(如孟德尔随机化、结构方程模型、贝叶斯网络)已被应用于发现基因组和表观基因组变异对脂质表型的新因果效应。
多组学整合的另一个挑战是高维度。尽管本文回顾的许多多组学队列提供了大量样本,但样本数量仍然远远少于特征数量。在整合多组学之前,建议降低维度。相关研究表明与基于原始基因表达的分类相比,基于WGCNA共表达模块的分类能够更好地应对数据集之间的差异。其他降维技术,如支持向量机(SVM)、随机森林(RF)和奇异值分解(SVD)也常用于减少过拟合问题。在单细胞组学中,使用PCA、t-SNE和UMAP等方法来降低维度。先进的深度学习方法,如变分自动编码器(VAE)也可以输出高维数据的低维潜在表示。多重测试信息和显著性标准是伴随而来的问题。
来自不同队列或联盟的样本实际上可能来自相同的对象。例如,PsychEN-CODE联盟对1800多个大脑的DLPFC RNA-seq数据的综合分析包括来自BrainSeq研究第一阶段的500个大脑的数据。通过源ID或通用ID 连接不同的队列,可通过删除重复样本来潜在地减少偏差,并通过连接来自相同受试者的样本来增加功效。当分析依赖于来自相同受试者的多组学数据时,样本识别和匹配对于某些数据整合分析至关重要,例如QTL定位。DRAMS方法提供了基于基因型的解决方案,以确保数据匹配。随着越来越多的单细胞组学数据的出现,一个统一质量控制的单细胞多组学数据集中存储库将有助于跨队列的比较和整合。
开放的基因组数据共享一直是成功研究的重要组成部分。在过去的十年里,公共和私人资助机构都认识到了数据共享的重要性,并敦促在数据产生后,甚至在数据生产者首次使用前就进行共享。与大脑相关的联盟,如psychENCODE、AMP-AD、CommonMind和AMP-PD是该政策的良好倡导者和实践者。集中的数据库如Synapse(https://www.synapse.org)和NIGADS(https://www.niagads.org)使数据共享和下载变得容易。开放共享政策也被应用于流程、方法和代码,以提高研究的可重复性。
参考文献
Dong X, Liu C, Dozmorov M. Review of multi-omics data resources and integrative analysis for human brain disorders[J]. Briefings in Functional Genomics, 2021.
图片均来源于Briefings in Functional Genomics官网和参考文献,如有侵权请联系删除。