癌症分析【第1课】答疑篇

2019-06-28 2181动手实验室

From Teacher

上一期的动手实验室的热身,小伙伴们提出了一些问题,我在这里做了整理汇总,同时也会留给大家的探索思考题,鼓励小伙伴们使用google/百度搜索引擎来找到你的答案,以留言/群互动的方式,共同探讨、共同学习,一起成长。所以,我们互动起来吧~!

第一课:FAQ

Q1:没安装Docker,能否用其他软件代替?
A1:再试一下吧,你可以的 ~其实真正的生物信息分析,需要一定的计算资源和存储资源,你可能需要配备并且维护一个工作站,甚至是计算机集群。本课程考虑到想要学习生物信心小伙伴们不一定都已经准备好了这些机器设备,为了避免大家『从入门到放弃』,于是采用Docker,让大家可以轻便地在任何系统的计算机上体验生信分析的过程。所以,没有安装Docker的小伙伴们,还是再尝试一下吧~(或许有借口买一台更好的设备了)

Q2:如何选择参考基因组ref.fasta文件?
A2:对于测序下机数据的分析,从比对到变异检测,需要用同一套参考基因组数据,例如,你需要确定是用Ensembl还是UCSC的参考基因组,hg19还是hg38,等等。在第1课提供的CNBGdb上可公开下载的bam文件,其参考基因组用的是UCSC的hg19,所以,如果你要用这套数据测试,可以参考视频,下载一套UCSC hg19的参考基因组fasta文件。

探索题
如果我要用Ensembl的参考基因组,怎么下载?Ensembl和 UCSC的参考基因组有什么区别呢?

Q3:如何从bam文件中截取一部分(例如,20号染色体的区域)?
A3:试一下samtools view命令。生物信息分析有很多常用工具,samtools是其中之一,在命令行中输入命令samtools view,查看参数,你会看到这个命令的具体使用方法。如果你想从一个bam文件中截取一部分,如20号染色体(注意,需要确认你的参考基因组版本,是chr20还是20),你可以在命令行中这样使用:

  • 查看使用说明

samtools view

  • Usage: samtools view [options] || [region ...]

samtools view /data/test.bam 20 -b >/data/test.20.bam

输出的即是从 /data/test.bam 文件中截取20号染色体的部分,输出到 /data/test.20.bam 文件中。-S参数,是指忽略输入文件格式;-b参数,是指输出bam文件。

探索题 bam/sam是一种存储比对reads的文件格式,每一列分别代表什么?

Q4:在运行GATK HaplotypeCaller的时候,报错没有找到参考基因组的index文件,怎么办?
A4:那就需要建一个index文件了。报错信息显示找不到.fai文件,需要用samtools faidx命令,对ref.fasta文件进行索引。然后就可以愉快地跑HaplotypeCaller啦~

对了,bam文件也需要建立索引,用samtools index命令,对bam文件生成.bai索引文件。

  • 为参考基因组建立索引

samtools faidx /data/ref.fasta

  • 为bam文件建立索引

samtools index /data/test.20.bam

别忘了,动手实验室鼓励小伙伴们通过使用搜索引擎Google/百度来寻找你所遇到问题的答案,以留言/群互动的方式互动,共同探讨、共同学习,一起成长!

更多精彩课程,欢迎继续关注!

上一篇下一篇