CNGBdb动手实验室 | 癌症分析【第1课】热身-快速跑变异检测

2019-06-21 2449动手实验室docker

实践必修课:癌症分析

基因组突变的积累被广泛认为是癌症发生、发展的重要原因,也是探索癌症治疗方法的重要切入点。因此,基因组测序及变异检测成为癌症研究最常见的分析方案。

癌症分析实践必修课将以具体实例介绍简单实用的癌症基因组生信分析的常用工具以及分析思路。

第一课:动手体验变异检测

Step1:安装docker

你需要一台电脑,Windows, Mac或是Linux系统,都可以!只要,你安装好Docker:

https://www.docker.com/

癌症分析【第1课】热身-快速跑变异检测_1

根据docker官网指引,下载并安装Docker,注册Docker账号登录,根据官网文档配置:

https://docs.docker.com/docker-for-windows/install/ 
癌症分析【第1课】热身-快速跑变异检测_2

确认在你的计算机上,Docker is running:
癌症分析【第1课】热身-快速跑变异检测_3

如果你安装成功了,可以在PowerShell/command prompt/Terminal里操作,看到以下结果:

docker --version
docker run hello-world

癌症分析【第1课】热身-快速跑变异检测_4

Q & A 

Q:为什么要使用Docker呢?
A:因为在Docker中,开发者已经把他们的工具程序和依赖包都放在一个轻量级、可移植的镜像中,你可以很方便地在你的电脑(无论是Windows,MacOS,还是Linux)上使用这些工具程序。

Step2:安装docker版GATK

你需要了解GATK,并准备好一个Docker版本的GATK。GATK (Genome Analysis Toolkit)是大名鼎鼎的美国Broad Institute 开发的一套基因组分析生信工具,也是人类及癌症基因组分析中最经典,最常用的工具。其中,本次演示中使用的HaplotypeCaller是GATK常用的变异检测软件。

https://software.broadinstitute.org/gatk/ 癌症分析【第1课】热身-快速跑变异检测_5

GATK已经把他们的工具放在Docker hub,因此,我们可以来尝试一下使用Docker版本的GATK。根据Docker hub上的提示,只要一句命令,就可以下载好Docker GATK:

docker pull broadinstitute/gatk
癌症分析【第1课】热身-快速跑变异检测_6

查看一下你的Docker镜像,如果是这样,说明你已经下载好了: > docker images
癌症分析【第1课】热身-快速跑变异检测_7

Step3:准备测试数据

你需要准备一个用来测试的数据,CNGBdb (国家基因库大数据平台)上有充足的公开数据资源供大家做生信实践,只要你有充足的存储空间,轻松下载,玩一玩!

bam文件(点击阅读点击原文可下载,建议电脑端操作)ftp://ftp.cngb.org/pub/CNSA//CNP0000066/CNS0007593/CNX0005846/CNR0006057

参考基因组
ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_ assembly_sequence/hs37d5.fa.gz

注:视频演示由于时间关系,选择的测试数据只截取了20号染色体上的一部分进行测试,如果你想快速体验一下分析,也可以这样操作哦。

Step4:跑一个变异检测

接下来,可以开始体验一下变异检测的分析流程啦!同样,只需要一行命令:

  • 进入Docker容器,并挂在数据卷 :> docker run –it –v D:\CancerPipeline\L0_Warming_Up :/data broadinstitute/gatk:latest
  • 在容器中,进行HaplotypeCaller 变异检测 :> gatk HaplotypeCaller -I /data/test.bam -R /data/ref.fasta -O /data/test.vcf

癌症分析【第1课】热身-快速跑变异检测_8

提示

  • docker run:在一个新的容器中执行命令
  • docker images:列出所有镜像
  • -it: 进入容器交互
  • -v: 挂在数据卷,即连通你的本地路径和容器内的路径
  • 更多docker参数,请运行命令 docker –help

Step5:查看结果vcf

最后,查看变异检测结果,由于我们挂在了数据卷,在docker容器中我们可以访问到本地的bam文件和reference文件,并对它们进行分析,得到的变异检测结果文件(.vcf)也会同时存在于容器和本地路径中。

如果你在本地路径中查看结果.vcf文件,即用你熟悉的文本编辑器打开即可。如果你在容器中(Linux)查看结果.vcf文件,可以使用以下命令: > less -S /data/test.vcf

以下就是变异检测结果.vcf的格式:
癌症分析【第1课】热身-快速跑变异检测_9

当然,当我们退出的时候,根据docker的设计,容器就消失了,但结果文件仍然会留在我们本地路径中。我们的测试体验,就完成了。简单吧?

退出容器命令> exit

上一篇下一篇