科普

癌症分析【第2课】测序下机数据处理(上)

2019-06-28 30动手实验室

From Teacher

上一期的动手实验室的热身,小伙伴都和Docker玩起来了吗?后面的小课堂将会给大家带来更多实用、好玩的动手体验~!

本次课程,我会给大家留探索思考题,鼓励小伙伴们使用google/百度搜索引擎来找到你的答案,以留言/群互动的方式,共同探讨、共同学习,一起成长。所以,我们互动起来吧~!

第二课:从测序下机数据开始处理(上)

在这一次课里,我们将会学习如何是对原始测序下机数据(reads)进行质控。主要的步骤包括从数据库中找到下机数据并下载,了解下机数据Fastq格式,使用工具对下机数据进行质控和理解质控报告四个部分。

Step1 从CNGBdb搜索并下载测序数据

国家基因库大数据平台CNGBdb有丰富的生物信息资源哦,我们将从CNGBdb上搜索找到一套合适的测序下机数据,并且下载下来。

CNGBdb动手实验室 | 癌症分析【第2课】测序下机数据处理(上)_1

测试数据(点击阅读点击原文可下载,建议电脑端操作)https://db.cngb.org/search/project/CNP0000368/

NA12878是千人基因组项目中一个常用的细胞系样本,常应用在测序技术和生物信息的方法评估中。详细信息请浏览http://www.internationalgenome.org/data-portal/sample/NA12878。

Step2 认识FASTQ格式的数据

FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。FASTQ文件中每个序列通常有四行:
第一行,以‘@’开头,read名;若是paired-end,则带有read1、read2的标识
第二行,read序列
第三行,以‘+’开头
第四行,对应第二行每一个碱基的质量信息(Phred Quality Scores)

碱基的质量信息(Phred Quality Scores)详见:https://www.phrap.com/phred/两种测序的方案,Single-end和paired-end(如图所示)。Single-end的测序数据,只有1个fastq文件,而paired-end的测序数据,则有2个fastq文件,分别存储reads1和reads2的信息。本次从CNGBdb数据库中下载的是paired-end的数据。

CNGBdb动手实验室 | 癌症分析【第2课】测序下机数据处理(上)_2

Step3 使用Fastp进行下机数据质控

fastp是一款较新的数据质控软件,可对测序下机数据进行全方位自动化的质控(无需复杂的参数设置),包括对reads进行过滤,去除低质量、过段或太多N的reads,自动检测接头序列并去接头,生成质控报告等,并且运行速度非常快(演示中对大小为2G的测序数据进行质控,只需不到5 min)。软件信息详见 https://github.com/OpenGene/fastp

CNGBdb动手实验室 | 癌症分析【第2课】测序下机数据处理(上)_3

  • 从docker hub中下载一个fastp

docker pull joshuagad/fastp:latest

  • 进入容器

docker run -it -v D:\CancerPipeline\L2_Reads_Clean:/data joshuagad/fastp:latest

  • 查看Fastp说明

fastp

CNGBdb动手实验室 | 癌症分析【第2课】测序下机数据处理(上)_4

  • 运行fastp质控

fastp -i V100007471_L03_539_1.fq.gz -o V100007471_L03_539_1.clean.fq.gz -I V100007471_L03_539_2.fq.gz -O V100007471_L03_539_2.flean.fq.gz

Step4 下机数据质控报告

Fastp运行结束后,会在屏幕中打印部分的质控报告;在生成的fastp.html文件中,可以看到详细的网页报告,包括:

  1. reads过滤前后数据量统计
  2. reads重复率(实验扩增引入,越低越好)
  3. Insert size(read1和read2之间的距离)
  4. 质量值分布,Q20和Q30比例
  5. GC含量
  6. 自动检测接头信息
  7. N含量
    ……
    CNGBdb动手实验室 | 癌症分析【第2课】测序下机数据处理(上)_5

CNGBdb动手实验室 | 癌症分析【第2课】测序下机数据处理(上)_6

质控生成的过滤后的fq文件,将用于后续的比对。我们的测序下机数据质控,就完成了。

探索题 如何根据reads重复率、Q20和Q30比例,GC含量等量化指标,来评价一份测序数据的质量呢? 

动手试一下吧~!别忘了,动手实验室鼓励小伙伴们通过使用搜索引擎Google/百度来寻找你所遇到问题的答案,以留言/群互动的方式互动,共同探讨、共同学习,一起成长!更多精彩课程,欢迎继续关注!

上一篇下一篇

相关专题