Cell子刊 | 举四个例子,教你复杂疾病多组学数据关联研究策略

2022-10-10 1602文献解读

全基因组关联研究(GWAS)为复杂疾病的遗传基础提供了见解。在下一步中,综合多组学方法可以表征相关原发组织中的分子特征,以揭示疾病发展的机制。近日,《Trends in Genetics》发表了一篇综述文章,描述了通过综合多组学方法获得的四种相关复杂疾病的最新进展。

复杂疾病-1.png

多组学数据&复杂疾病关联分析

人类原始组织的多组学数据提供了疾病相关细胞类型的分子特征,从而揭示了遗传研究以外的见解。这种分子信息将有助于克服目前复杂疾病转化工作中的挑战。简而言之,组学数据可以与GWAS结果相结合,以使用因果推断(例如孟德尔随机化或共定位方法)识别风险变异的目标基因。此外,组学数据可以改善风险变异特征,特别是对于那些存在于非编码序列中的变异。事实上,GWAS与使用功能基因组技术生成的数据集的计算交集[例如,染色质免疫沉淀后测序(ChIP-seq)、转座酶可及染色质测序分析(ATAC-seq)等]发现,对于一些复杂性状,风险变异往往存在并在调控序列中富集。

公共组学数据资源

国际合作产生了可作为参考数据的公开可用的组学数据资源:

GTEx数据库于2010年启动,提供了从838个个体的尸检样本中收集的49个组织中基因变异对基因表达和剪接的影响的目录。

ENCODE成立于2003年,是一个描述人类和小鼠基因组功能元件的试点项目,最初只关注基因组的1%,但现已扩展到整个基因组。目前的版本包括RNA转录、DNA结合、染色质修饰和可及性、DNA甲基化和复制时间数据。它描述了926535人和339815只小鼠候选顺式调控元件。

Roadmap展示了111种人类组织或细胞类型的人类表观基因组数据(进一步提供了来自ENCODE的16种细胞类型,总共127种)。它包括组蛋白修饰模式、DNA可及性、DNA甲基化和RNA表达。

人类细胞图谱(HCA)是一个国际合作项目,旨在生成单细胞分辨率的人类组织参考图谱。例如,最近一项与HCA相关的研究调查了50万个细胞,并为24个组织或器官的400种人类细胞类型提供了单细胞参考。HCA平台目前提供来自3.8万名捐献者的2600多万个细胞的数据(2022年7月7日)。

此外,还有提供疾病特定信息的数据库。Musculoskeletal Knowledge Portal是与肌肉骨骼特征相关的遗传和基因组数据的平台。它目前包含301个数据集覆盖281个性状。同样的,Type 2 Diabetes Knowledge Portal提供 T2D 相关数据(349 个数据集,347 个特征);TIGER包括来自500多个人类胰岛样本和糖尿病表观基因组图谱的组学和eQTL数据;AD Knowledge Portal是一个让AD相关数据可访问的倡议。

多组学数据与疾病的关联分析策略

将分子数据与疾病联系起来的一个标准方法是进行差异分析,例如在病例和对照之间进行差异分析。这与GWAS中的病例对照方法类似。基因研究估计信号在疾病中起因果作用(而不是反过来,因为基因型不受疾病影响,其在受孕时就形成了),与此相反,分子特征(RNA或蛋白质丰度、表观基因组标记或染色质状态)的变化可能是疾病的后果,而不是驱动疾病的风险因素。因此,差异分析识别的标记不一定与感兴趣的疾病有因果关系。

此外,已经开发了一些跨多个组学层整合数据的方法。一个公认的例子是整合匹配样本的基因组和基因表达数据,以在全基因组范围内识别影响基因表达水平的遗传变异,称为表达数量性状位点(eQTLs)。eQTL图谱可以与GWAS结果相结合,以确定分子驱动因素(例如可能的效应基因),通过这些分子驱动因素,风险变异在疾病相关组织中发挥作用。在复杂疾病的背景下,这些高置信度效应基因可能是有前途的药物靶点。其他已建立的多组学策略从网络中推断信息,或从多组学数据集中估计低维表示,例如对样本进行分层。

四种复杂疾病多组学数据关联研究进展

复杂疾病-2.png

二型糖尿病(T2D)

复杂疾病-3.png

在T2D中,迄今为止最大的研究包括1339889名个体,180834例病例和1159055名对照,其中大部分是欧洲后裔(51.1%)。

Viñuela等人研究了非编码T2D相关变异对420名非糖尿病供体胰岛组织中近端基因表达水平的影响。在胰岛中发现7741个eQTL,在44个GTEx组织中复制率高达40~73%。eQTL与表观基因组(ChIP-seq和ATAC-seq)数据的整合表明,eQTL在活性染色质状态(转录起始位点)和胰岛特异转录因子(TF)足迹基序(GLIS3、RFX和ETS家族)中富集。eQTL 信号与来自 T2D 或血糖特征的变异的共定位 GWAS 确定了47个具有潜在因果作用的变异,突出了效应基因中的DGKB和TCF7L2。

在Greenwald等人的一项研究中,作者使用Hi-C和ATAC-seq绘制了三位非糖尿病供体胰岛染色质结构的高深度图谱,并精细绘制了影响胰岛增强子活性的30个已知T2D信号,通过进行eQTL定位,进一步确定了增强子中T2D风险变异的目标基因,强调IGF2BP2的rs10428126变异是潜在的致病变异。

Miguel-Escalada等的一项研究使用启动子捕获Hi-C (pcHi-C)(四个供体)以及来自非糖尿病供体的ATAC-seq(13 个供体)、ChIP-seq(16 个供体)和RNA-seq(七个供体),作者在胰岛中发现了1300个以上的增强子中心,这些中心含有影响胰岛素分泌的变异。其还检测到了53个 T2D或空腹血糖风险位点与胰岛增强子重叠的可能效应基因。此项研究的亮点之一是风险变异rs7903146调节β细胞中TCF7L2的表达,以及通过含有rs11257655的增强子调节CAMK1D和OPTN。在多基因风险评分 (PRS) 中包含这些增强子风险变异可以量化遗传风险,特别是对于由胰岛基因调控和胰岛素分泌介导的体重指数 (BMI) (<30) 较低的个体。

Chiou等人利用三名非糖尿病供体胰岛中的snATAC-seq,结合已发表的scRNA-seq和T2D-GWAS数据,研究了胰岛中细胞特异性调节变化。

上述所有研究都对死后供体胰岛的T2D多组分进行了分析。Wigger等人进行的首次同类研究,从活体胰岛供体中提取胰岛细胞,按照血糖水平从正常血糖到糖尿病进行分类。作者测量了胰岛的转录组学(95名供体)和蛋白质组学(5名供体),数据整合显示与非糖尿病胰岛相比,糖尿病胰岛基因表达存在更大的异质性,而糖尿病胰岛中差异表达的基因主要涉及线粒体功能和免疫反应。此外,作者还确定了糖酵解酶ALDOB、葡萄糖转运蛋白SLC2A2、血浆神经酰胺水平和乙醚连接磷脂酰胆碱的表达与HbA1c水平(血糖标志物)的关系,认为它们是潜在的T2D生物标志物。最后,这项研究表明,T2D似乎更可能是成熟胰岛细胞中放松基因表达限制的结果,而不是β细胞去分化或转分化发育过程的结果。

骨关节炎(OA)

复杂疾病-4.png

对于骨关节炎,最大的GWAS调查了826690人(177517例和649173例对照),其中超过99.3%的欧洲血统。

Steinberg等研究人员整合了匹配样本中三种骨关节炎相关组织类型的基因型和分子数据(转录组学和蛋白质组学)。在每个组织中,作者描述了与基因表达(eQTL)或蛋白质水平[蛋白质数量性状基因座(pQTLs)]相关的遗传变异,提供了这些关节组织的第一个全基因组分子QTL图谱。将这些QTL图谱与骨关节炎的GWAS结果相结合,发现骨关节炎原发组织中有五个可能的效应基因(ALDH1A2、NPC1、SMAD3、FAM53A和SLC44A)。通过对低级和高级骨关节炎软骨的比较,在转录组和蛋白质组水平上确定了409个与软骨退变相关的基因。

Coutinho de Almeida等人研究了来自63名患者的低级别和高级别骨关节炎软骨中的mRNA和miRNA数据,确定了142个miRNA和2387个mRNA与骨关节炎软骨变性有关,同时提供了骨关节炎软骨中第一个miRNA-mRNA相互作用图谱。

阿尔兹海默病(AD)

复杂疾病-5.png

最大的AD研究调查了1126563人(90338例,1036225例对照)。另一项最近的阿尔茨海默病GWAS研究包含的个体总数较少(n=788989),但病例数较多(n=111326)。两项研究都只包括欧洲血统的人群。

Morabito等研究人员以单细胞分辨率分析了191 890个人脑前额叶皮质组织细胞核的匹配染色质可及性(12个晚期AD,8个对照)和基因表达图谱(11个晚期AD和7个对照)。确定了影响顺式基因的细胞类型特异性、AD 相关调节元件(例如AD 相关细胞类型少突胶质细胞中的 AD 相关基因 APOE 和 CLU)、胶质细胞群中的AD相关TF(例如SREBF1) ,以及一种新颖的综合相关网络方法来识别共表达基因簇。后者揭示了少突胶质细胞中SREBF1靶点的过度表达,强调了该TF在AD中的作用。

此外,最近对大量数据进行的多组学研究确定了AD脑区相关的疾病相关分子改变,如组蛋白修饰物H3K27ac和H3K9ac的增加,VGF下调,ATP6V1A下调,这被证明是一个很有前景的药物靶点。Bai等人利用蛋白质网络对AD大脑(n=90)进行了分子研究。他们整合了蛋白质组学和磷酸蛋白质组图谱,发现了173个与AD进展相关的蛋白质。进一步的组学数据整合优先考虑AD相关蛋白(前三位:AD相关基因APP、APOE和MAPT)和通路(例如淀粉样蛋白和Tau通路)。

系统性红斑狼疮(SLE)

复杂疾病-6.png

最大的系统性红斑狼疮GWAS已在208370人(13377例SLE病例,19993例对照)中进行,所有患者均为东亚后裔。最近的多组学SLE研究调查了 SLE患者的外周血样本,重点是描述外周血单核细胞 (PBMC) 中的单细胞转录组、生物标志物鉴定和了解疾病相关的分子机制。

一项多种族研究测量了来自162名SLE患者和99名健康对照者的超过120万个PBMC的单细胞转录组数据,报告了细胞类型特异性表达模式,基于表达的SLE病例和对照分类,并确定了共享和细胞类型特异性的顺式eQTL。

最近的一项研究整合了分别从外周血中分离的外周血(65例和67例对照)以及纯化的T(32 例和 28 例对照)和B细胞(38例和27例对照)的基因表达谱。比较 SLE 患者和对照,总共确定了750个差异表达基因 (DEG)。整合上调的SLE 基因与来自ENCODE的TF结合数据,确定了共调节基因的网络,并揭示了SLE相关途径(例如SLE干扰素特征)。进一步的整合步骤包括(i)疾病相关基因(DAG,在SLE GWAS中确定)和(ii)公开可用的蛋白质-蛋白质相互作用网络确定了从DAG通过TF到血液中差异表达基因的分级调控过程。

Robinson等人基于代谢组学数据调查了年轻患者的SLE异质性,以调查他们的心血管(CV)疾病风险,这是青少年发病SLE患者的主要死亡原因。

多组学数据的整合完善了我们对相关组织疾病病因的分子机制的认识。目前样本量、人群多样性和疾病相关细胞类型的限制仍然存在。新兴的监测多种形态的单细胞和空间多组学技术将为疾病相关细胞类型的特征提供更高的分辨率,从而产生超出批量数据固有限制的信息。许多与疾病相关的组织类型很难获得(例如,OA的关节组织、AD的脑组织)。克服这一限制的一个有希望的替代方法是使用类器官。

未来的进一步挑战包括预测疾病病程和选择最佳治疗方案,特别是在疾病早期。这种临床相关生物标记物的识别需要强有力的研究,以适当的样本量监测疾病发展过程中不同时间点的临床特征和多组学数据。因此,作者强调了纵向和时程研究的重要性。

参考文献Kreitmaier P, Katsoula G, Zeggini E. Insights from multi-omics integration in complex disease primary tissues. Trends Genet. 2022 Sep 19:S0168-9525(22)00225-6. 图片均来源于参考文献,如有侵权请联系删除。

上一篇下一篇