基因组突变的积累被广泛认为是癌症发生、发展的重要原因,也是探索癌症治疗方法的重要切入点。因此,基因组测序及变异检测成为癌症研究最常见的分析方案。
癌症分析实践必修课将以具体实例介绍简单实用的癌症基因组生信分析的常用工具以及分析思路。
你需要一台电脑,Windows, Mac或是Linux系统,都可以!只要,你安装好Docker:
https://www.docker.com/
根据docker官网指引,下载并安装Docker,注册Docker账号登录,根据官网文档配置:
https://docs.docker.com/docker-for-windows/install/
确认在你的计算机上,Docker is running:
如果你安装成功了,可以在PowerShell/command prompt/Terminal里操作,看到以下结果:
docker --version
docker run hello-world
Q & A
Q:为什么要使用Docker呢?
A:因为在Docker中,开发者已经把他们的工具程序和依赖包都放在一个轻量级、可移植的镜像中,你可以很方便地在你的电脑(无论是Windows,MacOS,还是Linux)上使用这些工具程序。
你需要了解GATK,并准备好一个Docker版本的GATK。GATK (Genome Analysis Toolkit)是大名鼎鼎的美国Broad Institute 开发的一套基因组分析生信工具,也是人类及癌症基因组分析中最经典,最常用的工具。其中,本次演示中使用的HaplotypeCaller是GATK常用的变异检测软件。
https://software.broadinstitute.org/gatk/
GATK已经把他们的工具放在Docker hub,因此,我们可以来尝试一下使用Docker版本的GATK。根据Docker hub上的提示,只要一句命令,就可以下载好Docker GATK:
docker pull broadinstitute/gatk
查看一下你的Docker镜像,如果是这样,说明你已经下载好了: > docker images
你需要准备一个用来测试的数据,CNGBdb (国家基因库大数据平台)上有充足的公开数据资源供大家做生信实践,只要你有充足的存储空间,轻松下载,玩一玩!
bam文件(点击阅读点击原文可下载,建议电脑端操作)ftp://ftp.cngb.org/pub/CNSA//CNP0000066/CNS0007593/CNX0005846/CNR0006057
参考基因组
ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_
assembly_sequence/hs37d5.fa.gz
注:视频演示由于时间关系,选择的测试数据只截取了20号染色体上的一部分进行测试,如果你想快速体验一下分析,也可以这样操作哦。
接下来,可以开始体验一下变异检测的分析流程啦!同样,只需要一行命令:
提示
最后,查看变异检测结果,由于我们挂在了数据卷,在docker容器中我们可以访问到本地的bam文件和reference文件,并对它们进行分析,得到的变异检测结果文件(.vcf)也会同时存在于容器和本地路径中。
如果你在本地路径中查看结果.vcf文件,即用你熟悉的文本编辑器打开即可。如果你在容器中(Linux)查看结果.vcf文件,可以使用以下命令: > less -S /data/test.vcf
以下就是变异检测结果.vcf的格式:
当然,当我们退出的时候,根据docker的设计,容器就消失了,但结果文件仍然会留在我们本地路径中。我们的测试体验,就完成了。简单吧?
退出容器命令> exit