干货!试试DISSECT癌症库这些爆好用的分析功能,癌症数据挖掘轻松上手

2019-08-22 2958CNGBdb癌症

癌症——由DNA变异引起的细胞恶性增生,是全球第二大死因,在2018年带走了估计约960万人的生命,占全球全年死亡人数的六分之一。基于组学数据的癌症预防和诊疗研究,对于提升人类的健康和福祉具有重要意义。

大数据挖掘是研究癌症的重要途径,有助于在分子水平上洞察癌变机制,为治疗、用药、预后监测提供帮助。由于其重要性,CNGBdb专门建立了DISSECT癌症数据集成与整合分析平台

DISSECT是什么?

DISSECT,本意为“剖析”,全称是“Data Integration Solution for Systematic Exploration of Cancer Traits”,是一个覆盖多癌种、多数据类型、多分析维度的综合性分析平台,致力于建立国内最全面的癌症大数据集成系统,帮助研究者对集成多组学数据进行单一癌种或跨癌种大样本的深度挖掘分析。

DISSECT包含ICGC、TCGA等多个数据库的大量癌症基因组和临床数据,当前已覆盖37个癌种(包括亚型),并将持续更新。

除提供数据查询服务之外,DISSECT具备多种在线分析工具以及图表可视化展示功能,从单群体、单数据类型到跨群体、多数据类型,都可以方便地进行个性化的分析研究。此外,还开发了ACMG动态解读功能模块,可根据ACMG(美国医学遗传学与基因组学学会)遗传变异分类标准与指南,对癌症相关的基因种系变异进行临床解读。

DISSECT怎么用?

这些功能具体怎么用呢?不妨先登录DISSECT(db.cngb.org/dissect),跟小编一起来动手练习。咱们先来熟悉一下界面,DISSECT有7个选项卡,分别对应不同的功能:

DISSECT_1

接下来,咱们重点了解一下DISSECT最常用的五大功能是怎么操作的:

单群体数据分析

Quick steps
1在【DATA】页面设置样本筛选条件;
2选择分析工具,开始分析;
3在【JOBS】页面查看、下载分析结果。

在【DATA】页面左侧,可以按照患者的年龄、性别、癌症分期、所属项目、吸烟史等条件,从库中筛选出特定的样本。页面右侧会实时显示筛选出的样本概况、临床信息和突变基因,同时以可视化的图表形式展示诊断年龄、突变数等信息。如下图所示:

DISSECT_2

确认筛选出的样本符合要求后,点击【Next】,跳转到【TOOLS】页面选择分析工具,对CNA(拷贝数变异)、SNV(单核苷酸位点变异)或CNA相关性进行分析。

DISSECT_3

选择一项工具,点击【Run】,即开始在线分析。所有分析任务会记录在【JOBS】页面。稍等片刻或收到邮件通知后,返回【JOBS】页面查看和下载分析结果即可。具体可参考下一部分。

跨群体对比分析

Quick steps
1在【DATA】页面分别设置两个群体的筛选条件;
2选择分析工具,开始分析;
3在【JOBS】页面查看、下载分析结果。

在【Data】页面,还可以对两个不同的群体(cohort)进行对比研究。以同一年龄段男性、女性的乳腺癌比较为例:

DISSECT_4

与单群体分析类似,筛选完成后点击【Next】,选择分析工具。如下图,两项工具分别用于对CNA和SNV进行比较。

DISSECT_5

点击工具下方的【Run】按钮,开始在线分析。稍后在【JOBS】页面查看结果:

DISSECT_6

以CNA分析为例,系统返回三个可视化的图形文件,命名为clinical、cna和survival,分别展示样本的临床信息统计图、CNA差异热图和生存分析,并附有相关的数据统计表。

DISSECT_7

上图:临床信息统计图,包含四个部分,从左至右,分别对比两个群体的样本数、癌症分期、癌种和年龄分布。

DISSECT_8

上图:CNA差异热图,是三个图表中信息量最大的,由无数个小方格组成,以颜色来区分样本的拷贝数差异:

  • 底部显示每一列对应的样本编号;
  • 顶部5行分别显示各样本所属的项目、所处的癌症分期、性别、年龄和群体;下方的格子则显示相关基因的拷贝数变异情况,对应的基因名称标在表格的最右侧;
  • 图表左侧和顶部的线条则分别指示基因之间、样本之间的相关性。

DISSECT_9

上图:生存分析表相对较简明,粉色和蓝色的色块分别代表两个群体,横轴表示生存的时长(单位:天),纵轴表示生存的比例。

通过以上三个图表,可以从多个维度上一目了然地查看两个群体的差异对比,对科研思路进行验证。

检索基因数据

Quick steps
1在【HOME】界面的【Filter gene】检索框输入基因名称、ID或同义名,进行检索;
2查看检索结果,点击【Statistics】查看统计图;
3点击外部平台链接,或切换至ICGC镜像网站,查看更多信息。

在【HOME】页面,可以用不同的关键词(基因名称、ID、同义名)来检索基因数据。结果分两个标签页显示,数据分别来自DISSECT内部以及ICGC门户镜像网站。以BRCA2基因为例:

DISSECT_10

如上图,除基本信息之外,检索结果还提供了GeneCards、HGNC、NCBI等平台的链接,点击即可跳转,方便了解更多信息。

点击最右侧【Statistics】下方的【+】按钮,可打开该基因相关样本的单核苷酸变异(SNV)和拷贝数变异(CNV)统计图。

切换到【ICGC Portal China Mirror】选项卡,点击相关链接,可跳转到ICGC镜像网站查看基因的详细信息:

DISSECT_11

对基因种系变异进行临床解读

Quick steps
1输入基因组坐标、dbSNP ID或cDNA变化,或上传VCF文件,点击提交;
2查看、下载分析结果。

在【VARIANTS CLASSIFIER】页面,可使用ACMG动态解读功能,快速对癌症相关的基因种系变异进行临床解读。输入基因组坐标(染色体、位置、ref、alt)、dbSNP ID或cDNA变化,或者上传VCF文件,即可获得解读结果。

仍以BRCA2为例,对chr13:g.32913846:C>T突变进行解读:

DISSECT_12

输入坐标,点击【Submit】提交。如有需要,可以点击右上角的【Add】按钮,添加多个查询框,最多可以同时解读10条变异。最快速的方式则是上传VCF文件(10MB以内),可同时对其中的大量变异进行批量解读。

DISSECT_13

如上图所示,解读结果包括该变异的分类信息、证据水平和详细描述。借助此功能,临床工作者可以批量解读受检者的基因变异,对治疗、用药、预后监测提供证据支撑。 点击底部的【Download result file】按钮,可将excel格式的解读结果保存到本地。

ICGC Data Portal镜像站点

点击【ICGC PORTAL CHINA MIRROR】选项卡,即可访问ICGC数据门户镜像站点。ICGC数据门户是目前全球规模最大的癌症基因组数据库,可以查询、下载国际癌症基因组联盟(ICGC)成员的项目数据,并进行分析和可视化。

DISSECT_14

这是中国内地首个ICGC Data Portal镜像站点,为国内研究人员提供了极大的便利,可显著提升访问速度和服务稳定性。如果使用过程中遇到问题,可以查看【HELP】页面的用户指南,或者通过以下方式联系我们:

邮箱:CNGBdb@cngb.org
电话:0755-3394 5586

参考资料:

[1] Global Cancer Statistics 2018: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries, https://onlinelibrary.wiley.com/doi/pdf/10.3322/caac.21492
[2]TCGA Research Network: Please adhere to the TCGA publication guidelines when using TCGA data in your publications. https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/using-tcga/citing-tcga
[3] ICGC Data Portal: Please adhere to the ICGC publication guidelines when using ICGC data in your publications. https://docs.icgc.org/portal/publication/
[4] Zehir, A., et al. (2017). "Mutational landscape of metastatic cancer revealed from prospective clinical sequencing of 10,000 patients." Nat Med 23(6): 703-713.
[5] Cerami, E., et al. (2012). "The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data." Cancer Discov 2(5): 401-404.
[6] Gao, J., et al. (2013). "Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal." Sci Signal 6(269): pl1.
[7] Lek, M., et al. (2016). "Analysis of protein-coding genetic variation in 60,706 humans." Nature 536(7616): 285-291.
[8] A global reference for human genetic variation, The 1000 Genomes Project Consortium, Nature 526, 68-74 (01 October 2015) doi:10.1038/nature15393.
[9] Liu, S., et al. (2018). "Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History." Cell 175(2): 347-359 e314.

上一篇下一篇

相关专题