生存分析就是一个任人打扮的小姑凉

2019-11-11 2298动手实验室

最近接到粉丝的TCGA分析需求,想看看指定基因在指定癌症是否具有临床意义(也就是生存分析是否有统计学显著效果咯!)其实很早以前我在生信技能树就号召粉丝讨论过这个问题:集思广益-生存分析可以随心所欲根据表达量分组吗 这里我做实力演绎一下。

我这里选择最方便的 网页工具:https://xenabrowser.net/heatmap/  选择合适的数据集及样本信息还有基因来演示一下,随便选择一个基因一个癌症吧,如下:

生存曲线_1

这个时候,我草率的制作了生存分析图如下:

生存曲线_2

的BRCA病人没道理居然快1200个了,肯定是有什么地方错误了,重新看了看,的确是因为没有顾虑到里面有正常组织测序的那些病人,怎么说呢,相当于把有正常组织测序的那一百多个病人,在我这个生存分析里面计算了两次,他们的生存时间信息,生存状态都重复计算了,所以实际上这个生存分析是错误的。

过滤一下,仅仅是保留tumor的表达量信息和病人临床信息,再次制作生存分析曲线,如下所示:

生存曲线_3

可以看到,之前明明是显著的结果消失了,而且不管是使用哪种表达量划分方式,都达不到统计学显著阈值。是不是就没有办法了呢?当然不是,还可以使用R包,一个非常棒的外国小哥博客写的很清楚:http://r-addict.com/2016/11/21/Optimal-Cutpoint-maxstat.html还有专门的文章,这里就不细心讲解啦。

生存曲线_4

外国小哥博客写的很清楚:http://r-addict.com/2016/11/21/Optimal-Cutpoint-maxstat.html 我们现在就测试一下这个流程。首先下载我们前面的数据文件:'PLEKHA5-BRCA.tsv' 内容如下:总共6列,在前面的 网页工具:https://xenabrowser.net/heatmap/  选择对应的信息下载即可:

生存曲线_5

然后是R代码读入上面的文件,主要是列名需要保证正确无误!!!

生存曲线_6

重要的的列名是:

生存曲线_7

如果是你自己的数据集,需要稍微修改哦。见证奇迹的时刻:

生存曲线_8

是不是统计学显著啦!!!函数帮我们选择的分组;

生存曲线_9

更多信息请点击了解:https://github.com/jmzeng1314/survival

▍本文版权(文字和图片)属于“生信技能树”(微信公众号:biotrainee),禁止二次转载

上一篇下一篇