GATK,即Genome Analysis Toolkit 基因组分析工具。GATK在鉴定生殖细胞DNA和RNAseq数据中的SNPs(single nucleotide polymorphisms)和插入缺失突变(Indel)方面,堪称行业标准。
GATK初创于为人类遗传学分析服务,现在其数据处理范围已扩大至包括体细胞短变异检测(somatic short variant calling),拷贝数变异(copy number variant,CNV)和结构变异(structural variant,SV)分析等。
此外,GATK还包括许多实用程序,如高通量测序数据(外显子组,全基因组等)的处理和质量控制,以及Picard工具包。GATK基于工业级基础架构(Apache spark并行化与云基础架构)和高性能计算特征(数据访问、转换和遍历等),已可处理来自任何物种、任何倍性水平的基因组数据。
GATK主要功能列表
数据质控(Diagnostics and Quality Control)
数据处理(Sequence Data Processing)
变异检测(Variant Discovery)
变异评估(Variant Evaluation)
变异注释(Variant Annotations)
变异文件操作(Variant Manipulation)
宏基因组分析(Metagenomics)
甲基化特异性分析(Methylation-Specific)
参考序列分析处理(Reference)
……
GATK是一套开源工具,遵从3-clause BSD协议。可在Linux和其他POSIX兼容平台(含MacOS)运行,暂不支持Windows系统。主要系统要求为Java 1.8,部分工具需要R或Python。建议使用Docker容器以便于部署,可从Dockerhub官网获取,详情可进一步参阅获取下载和安装说明。
GATK4相比GATK3基因组类型序列数据分析速率提升15倍,同时输入数据容量增加5倍。包括可在任何本地或云计算基础架构上运行的端到端(end-to-end)流程,包含利用机器学习和神经网络算法最新成果的新工具。
e.g. GATK4 Mutect2
GATK4作为一套功能强大的开源分析工具,既可实现稳健地、快速的数据分析,如应用于线粒体基因组分析、液体活检数据分析等,亦可对其组件进一步进行重写与优化,形成性能更佳的个性化定制化的分析工具,如GATK PathSeq,定制化分析工具可从真核细胞基因序列文库中挖掘和鉴别微生物基因序列等。
疾病研究,临床治疗和医学研究是基因组变异分析广泛应用领域。但当分析工具存在计算瓶颈时,将可能导致大型计算集群出现长尾任务,阻碍多节点和多核群集的高可扩展性,并导致运行时间长和计算资源的浪费。因此,提升分析速率,并可在分布式环境中运行的高度可扩展工具,对于大规模基因组数据的变异检测非常有用。
GATK4最佳实践分析pipeline
Germline SNPs + Indels
Somatic SNVs + Indels
RNAseq SNPs + Indels
Germline CNVsSomatic CNVs
GATK4更多实践课程,请持续关注CNGBdb生信小课堂!
参考文献
Genome Analysis Toolkit Variant Discovery in High-Throughput Sequencing Data[EB/OL]. https://software.broadinstitute.org/gatk/. -/2019-06-13.