<2019第二期课程回顾>一小时入门转录组生信分析

2019-06-24 4286课程转录组

课程回放:

https://m.lizhiweike.com/lecture2/12638336st=sharelink&inviter_id=80961050&from_old_lecture=1

CNGBdb组学/数据库系列课程开讲啦! 2019年6月20日<第二讲>上线 课程名称:转录组分析入门 讲师:杨婷 博士/深圳华大生命科学研究院

课程概要

  1. 什么是RNA:RNA 的种类、RNA 合成的部位、RNA 在细胞内的含量
  2. 怎么开始RNA 项目:确定研究目标、选取合适的实验材料、选择合适的测序手段
  3. RNA 信息分析主要分析内容:RNAseq、RNAref、RNAdenovo、smallRNARNA
  4. 常用信息分析软件解析:组装、表达量及差异分析

RNA分析常用软件

  1. 比对到参考基因组: blat,bwa,tophat, STAR, HISAT
  2. 转录本的评估:cuffcompare, BUSCO
  3. 基于reference的组装: Tophat+Cufflinks, HISAT+stringTie
  4. De novo 组装:Oases, trinity, SOAPdenovo-Trans, Bridger 
  5. 表达量:Cufflinks, stringTie, RSEM 
  6. 差异分析:DEGseq, DEseq2, EBseq, NOIseq 和PossionDis, Cuffdiff

现场Q&A

  1. Q:RNA有没有具体的分析流程?
    A:如果按照RNA的分析内容看,是有具体的分析流程的,比如华大就有RNAseq、RNAref、RNAdenovo、smallRNA,LncRNA. 但是在具体到每一个分析点时,有时并不是流程能解决的,因此还是需要熟悉RNA的分析工具,灵活选择。

  2. Q:问一下质控的时候duplication level不过关是正常的吗? 造成这个原因一般是什么呢? A:这个主要看做什么分析点,如果只是做组装,不会有太大影响,去掉就好,但是如果设计表达了,就不能轻易的直接去掉duplication。 造成原因有有两点:1)建库过程引入的; 2)基因组中的多拷贝基因家族。

  3. Q:duplication rate 多少反复内是正常的啊?个别样本duplication超过50%,数据可用于后续分析吗?
    A:一般高的时候能到30-50%。高duplication能否使用,主要还是考虑分析点。在做组装的时候,如果装出来的基因数量没有什么问题,reads 比对回去mapping ration没有什么问题,这个数据也是能接受的。但是对于做表达分析时,可能就要比较小心。

  4. Q:如果这个转录本本身就是多拷贝的,质控的时候可以区分吗?
    A:这个很难区分,除非这个拷贝的差异还是比较明显。

  5. Q:Protocol这块没出现RSEM,请问有做过横向比较吗?
    A:RSEM对于有偏向的测序reads 效果还是不错的。具体偏向是指一个基因在被测到的时候,它并不是5’到3’的均匀分布,这种不均匀的分布一般是测序导致的,软件在作分析的时候考虑了这一因素,因此软件在表达分析的时候进行了更准确的表达定量。

  6. Q:一般定量时是用RSEM,FeatureCounts, 还是StringTie呢?
    A:StringTie既可以做转录本的组装也可以给出表达量的信息。做表达量的时候是一般都是采用三种标准化的过程,因此其实表达了计算我觉得不是重点,而是比对的过程,及标准化的差异。

  7. Q:rsem-prepare-reference提取的转录本和gencode下载的不一致取信哪个呢?
    A:你提到的这两个软件我没有直接比过,我们日常使用的提取转录本都是我们自己写的程序,我们的一般流程:先通过各种方式构建了一个转录本,提出后会对转录本之间做比较,常规判断:两个转录本之间有多大程度的overlap,转录本是否有正常的起始,是否有正常的功能等。

  8. Q:多少数据量可用于转录本可变剪接分析?
    A:对于可变剪接,一般我们都会把reads mapping回去,同时提取有效的可变剪切位点信息。但是也是有经验值的,以植物为例我们要求在8G左右的测序量。

  9. Q:差异基因很多怎么办?
    A:差异基因很多的情况下,我们一般都会做火山图或MA图来看一下背景情况,如果背景干扰本身就很大,可考虑过滤步骤是否没有做好,建议您可以做一个多重校正。

  10. Q:饱和度是怎么计算呢,抽取数据吗?
    A:饱和度是分不同等级、不同数据集做mapping,直到基因增加不影响cover情况,说明数据基本是饱和的。

  11. Q:可变剪接分析是用来比较同一个样品不同处理或不同器官的吗?
    A:这只是可变剪接分析的一方面,可变剪接是基于参考基因组,参考基因组会有一个基因集,基因位置是已知的,不同组织部位在基因表达后会有一些剪切形式,可变剪接是对于参考基因集来说基因表达后有哪些变化。

  12. Q:有一个物种很多RNA测序,可不可以用这些转录组数据,比对基因组后用DESeq2比较表达量无差异的基因以确定内参基因呢?
    A:不建议这么做,对于转录组来说,虽然来自同一物种,但是在不同表达情况、不同生长环境、不同数据量和采样时间等都有很大差别,如果只是为了寻找内参,做管家基因的表达分析,可以大致看一下。

  13. Q:可变剪接分析需要生物学重复吗?
    A:基本上不需要生物学重复,除非是同一环境下的反复采样,其对于转录组分析的意义不大,因为对于有很大影响的可变剪接后期还是会做验证。

  14. Q:可变剪接分析用于那些领域,老师能几个例子说明下吗?
    A:例如在基因组学上,有两个非常接近的物种,在基因组上有一个相同的基因,但是在做表达的时候发现有不同的剪接形式,这个剪接形式直接导致了翻译的蛋白进入了不同的pathway,产生特殊功能,这就是基因相同最终代谢物不同的原因。

  15. Q:请问下从火山图上怎么看背景的干扰程度?直接用DEGseq做的
    A:正常情况下火山图是在中间没有差异表达的会非常多,越往两边应该是慢慢变稀疏,如果怀疑做差异表达出现问题,这个火山图会出现不规则性,不会有两边少中间聚集的情况。

  16. Q:转录组测序测多个样本来比对更准确还是单样本测序就可以呢?
    A:这个与项目类型相关,如果做转录组的组装只是为了基因组的注释,这种情况没有必要做多样本重复,但是对于做表达分析来说,需要样本和技术重复。

  17. Q:以前用Genbank时,看到一个基因有多个大小不同转录本,如何判断他们是组装产生的,还是可变剪接导致的?
    A:可能不是组装造成的,而是注释造成的,我们在得到一些转录本后,原则上我们会选择最长或者和基因组特点最接近的转录本做注释,在上传数据的时候一般很少允许gff文件之间有overlap的情况。

  18. Q:软件怎么获得?
    A:在github来源软件库下查找软件,然后打包下载即可;或者直接网页搜索。

  19. Q:不同品种都只做了一个时期的转录组,没有重复,请教该如何分析能发一篇文章?
    A:你这个问题非常抽象,如果这个时期对于这个物种来说没有什么意义,那他就是独立的转录组分析,您可以装出unigene,然后构建一个这个物种的pan 基因库,找一找每个物种共有的和特有的,做个功能分析也可以发文章。

  20. Q:做火山图的目的到底是为啥?
    A:简单点说是为了看,表达差异的基因的显著性。

审核:杨婷

上一篇下一篇