行业“金标”GATK之概述篇

2019-06-14 4188动手实验室GATK

GATK,即Genome Analysis Toolkit 基因组分析工具。GATK在鉴定生殖细胞DNA和RNAseq数据中的SNPs(single nucleotide polymorphisms)和插入缺失突变(Indel)方面,堪称行业标准。

GATK有哪些功能

GATK初创于为人类遗传学分析服务,现在其数据处理范围已扩大至包括体细胞短变异检测(somatic short variant calling),拷贝数变异(copy number variant,CNV)和结构变异(structural variant,SV)分析等。

此外,GATK还包括许多实用程序,如高通量测序数据(外显子组,全基因组等)的处理和质量控制,以及Picard工具包。GATK基于工业级基础架构(Apache spark并行化与云基础架构)和高性能计算特征(数据访问、转换和遍历等),已可处理来自任何物种、任何倍性水平的基因组数据。

GATK主要功能列表

数据质控(Diagnostics and Quality Control)
数据处理(Sequence Data Processing)
变异检测(Variant Discovery)
变异评估(Variant Evaluation)
变异注释(Variant Annotations)
变异文件操作(Variant Manipulation)
宏基因组分析(Metagenomics)
甲基化特异性分析(Methylation-Specific)
参考序列分析处理(Reference)
……

GATK如何安装

GATK是一套开源工具,遵从3-clause BSD协议。可在Linux和其他POSIX兼容平台(含MacOS)运行,暂不支持Windows系统。主要系统要求为Java 1.8,部分工具需要R或Python。建议使用Docker容器以便于部署,可从Dockerhub官网获取,详情可进一步参阅获取下载和安装说明。

GATK4的特点

GATK4相比GATK3基因组类型序列数据分析速率提升15倍,同时输入数据容量增加5倍。包括可在任何本地或云计算基础架构上运行的端到端(end-to-end)流程,包含利用机器学习和神经网络算法最新成果的新工具。

e.g. GATK4 Mutect2

  1. 修复bugsGATK4修复了引起无效对数概率、空值等问题,并改善了在小型基因探针上污染计算不够准确的情况。使体细胞变异检测错误率降低,假阳性率降低,灵敏度更高,有助于项目更高效、更准确和更低成本的开展。
  2. 增加分析灵敏度和精准度GATK4移除了参数-normal-artifact-lod, -max-germline-posterior, -max-strand-artifact-probability, -max-contamination-probability 和even -tumor-lod。FilterMutectCalls将会自动匹配最适参数以优化 "F score"——即灵敏度和精准度调和中项。用户可调整单个参数对灵敏度进行微调,如β参数。设置β值至大于默认值可增加灵敏度,而小于默认值可增加精准度。
  3. 降低分析结果中假阳性此前有研究设想,对亚克隆(subclones)等位基因部分建模,更有助于发现体细胞突变。GATK4 Mutect2 贝叶斯框架(Bayesian framework)可使用二项分布(binomial distributions)对体细胞变异测序读长计数建模。使用狄利克雷过程二项混合模型分析未知数量的亚克隆。由于CNVs,小亚克隆,乘客突变(passenger mutations)的遗传漂变(genetic drift)均会产生一些与离散值不匹配的等位基因分数,不宜使数据分析过于简化。Mutect2使用二项分布和 β-二项分布似然分析肿瘤对数几率(tumor log odds),可改善上述问题。
  4. 包含Picard工具包GATK4包括了时下流行的Picard工具包,用于高通量测序数据的处理和质量控制。所有Picard工具现在都可以直接在GATK命令行使用,具有统一的命令语法和用户指南。

GATK4应用领域

GATK4作为一套功能强大的开源分析工具,既可实现稳健地、快速的数据分析,如应用于线粒体基因组分析、液体活检数据分析等,亦可对其组件进一步进行重写与优化,形成性能更佳的个性化定制化的分析工具,如GATK PathSeq,定制化分析工具可从真核细胞基因序列文库中挖掘和鉴别微生物基因序列等。

疾病研究,临床治疗和医学研究是基因组变异分析广泛应用领域。但当分析工具存在计算瓶颈时,将可能导致大型计算集群出现长尾任务,阻碍多节点和多核群集的高可扩展性,并导致运行时间长和计算资源的浪费。因此,提升分析速率,并可在分布式环境中运行的高度可扩展工具,对于大规模基因组数据的变异检测非常有用。

GATK4最佳实践分析pipeline

Germline SNPs + Indels
Somatic SNVs + Indels
RNAseq SNPs + Indels
Germline CNVsSomatic CNVs

GATK4更多实践课程,请持续关注CNGBdb生信小课堂!

参考文献
Genome Analysis Toolkit Variant Discovery in High-Throughput Sequencing Data[EB/OL]. https://software.broadinstitute.org/gatk/. -/2019-06-13.

上一篇下一篇