RNA-seq数据归一化,你做对了吗?

2019-11-27 7698文献解读

RNA-seq

过去对于整个细胞转录组水平的检测用的是表达谱芯片,而转录组测序技术(RNA-seq)的出现,改变了过去二十年的生物研究。RNA-seq是生物学和生物医学研究中使用最广泛的技术之一,通常用于多个目标分析,包括阐明驱动不同生物学过程的关键转录网络以及多种疾病的诊断和预后表达特征的鉴定。而数据归一化是RNA-seq处理流程的关键组成部分。

为什么要做数据归一化?

消除基因长度产生的误差

RNA-seq实验中众所周知的固有技术效果与基因长度有关:RNA(或cDNA)分子在测序之前先进行片段化,较长的转录本会比较短的转录本被剪切成更多的片段。因此,转录本的reads数不仅与其表达水平成正比,而且与其长度成正比。

这样来说,序列长的基因永远会被认为表达量较高,从而错误估计基因真正的表达量。为了消除基因长度产生的固有技术误差,在过去十年中,已针对RNA-seq数据开发了许多归一化方法,其中常用的有RPKM、TMM、RLE、upper quartile上四分位处理等。

然而

《PLOS Biology》:我们对基因表达数据存在普遍误解

本月来自特拉维夫大学的研究人员在《PLOS Biology》上发表了其最新研究成果:通过分析公开可用的35个人类和小鼠RNA-seq数据集,发现样本特异性长度效应对表达量的影响比目前所认知的更大,而这种随机样本特异性效应不能通过常用的归一化方法来纠正,这种偏差会通过基因富集分析(GSEA)方法导致反复出现假阳性。

RNA-seq_1
RNA-seq_2

样品特异性的长度效应将差异基因的表达与RNA-seq数据中的长度结合在一起。

RNA-seq_3
RNA-seq_4

广泛使用的RNA-seq归一化方法无法消除样品特异性的长度偏差。

RNA-seq_5

研究人员证明了这种长度偏差会通过GSEA导致反复出现的假阳性调用,从而导致数据的频繁功能性误读。其中,以明显短基因(如核糖体蛋白基因)或长基因(如细胞外基质基因)为特征的数据集尤其容易出现这种错误的调用。

如何纠正随机样本特异性长度效应?

上述研究的相关人员表示:通过条件分位数归一化(cqn)和EDASeq方法可以有效地消除这种特定样本的长度偏差,使用这些归一化方法可以大大减少GSEA错误结果,同时保留真实结果。此外,他们发现考虑基因与基因相关性的基因组测试的应用可减轻由长度偏差引起的假阳性率,但统计功效也会降低。

RNA-seq_6
RNA-seq_7

cqn进行的特定于样本的长度偏差校正可减少GSEA的错误调用,而不会影响对真实信号的检测。基因间相关性的计算减少了因样本特定的长度效应引起的假阳性。

From 研究团队:我们的研究报告了RNA-seq数据中普遍存在的样品特异性长度效应。因此,我们建议检查这种偏倚,并使用支持基因水平样品特异性协变量的归一化方法(如cqn和EDASeq)作为RNA-seq数据分析流程中的默认步骤。此外,我们的结果重申了进行基因富集测试时需要考虑基因间相关性的需求。

参考文献

Mandelboum S, Manber Z, Elroy-Stein O, et al. Recurrent functional misinterpretation of RNA-seq data caused by sample-specific gene length bias[J]. PLoS biology, 2019, 17(11): e3000481-e3000481.

图片来源:均来自于参考文献,如有侵权请联系删除。

上一篇下一篇