scPred:从scRNA-Seq数据中进行高精度细胞分类的新方法

2019-12-24 381文献解读

单个细胞是生物体的基本组成部分,尽管一个人由大约30万亿个细胞组成,但每个细胞在转录水平上都是独一无二的。

单细胞转录组测序(scRNA-seq)是一项革命性的技术,它可以用来识别每个细胞独特的转录组特征。利用这些信息,我们现在能够解决以前不能回答的问题,包括识别新的细胞类型,解决发育过程中的细胞动力学,以及识别不同细胞亚型之间的基因调控机制等。

如何从scRNA-seq数据中,快速、精确的分类单个细胞?

scPred:基于转录数据对单个细胞进行分类的通用方法

最近来自加文医学研究所的研究人员在《Genome Biology》杂志发表了其开发的一种细胞分类新方法:scPred。通过将单细胞分析技术与机器学习算法相结合,scPred可以在大量转录组数据中,确定相关细胞独特信息,从而对单个细胞进行高精度分类。

scPred_1

scPred是一种基于转录数据对单个细胞进行分类的通用方法。该方法结合分解基因表达矩阵的方差结构来识别有限的信息特征,并使用机器学习方法来估计这些特征对细胞分类的影响。这样,它就能够在预测模型中加入不同细胞类型间基因表达的均值和方差的大量小差异。

医学诊断的新维度

研究人员表示scPred大大提高了细胞类型的分辨率,并可能发现目前医学诊断范围之外的病变细胞。他们利用现有数据集对scPred进行了验证。

scPred_2

利用Chromium平台产生的四个样品的scRNA-seq数据(来自两名IIA期胃腺癌患者)。 scPred对分类肿瘤细胞和非肿瘤细胞具有很高的预测准确性,scPred优于基于差异表达基因和log2(CPM + 1)细胞平均值(预测基线)的预测。

scPred_3

scPred可以使用跨不同平台生成的scRNA seq数据准确预测细胞亚型。利用来自CEL-seq2,Smart-Seq2和SMARTer平台的胰腺细胞scRNA-seq数据,scPred预测细胞类型的平均准确度为97.68%。

scPred_4

scPred可以准确分类具有非常相似转录特征的细胞。利用94,655个外周血单核细胞分为训练组和测试组进行评估,试验组97.67%的细胞(47,328个中的45,884个)被正确分类,最高和最低分类准确率分别为99.7%(淋巴细胞)和95.13%(细胞毒性T细胞)。

scPred_5

scPred可以准确分类不同实验室产生的数据。研究人员选择通过建立预测模型以从外周血样品中鉴定树突状细胞来评估scPred的性能。树突状细胞由来自外周血细胞(461个细胞)和脐带细胞(420个细胞)的异质混合物的scRNA-seq数据组成,它们是来自不同实验室SMART-Seq2平台生成的数据。其中,外周血来源细胞的准确性为98%,脐带细胞准确性为82%(可能反映了从脐带获得的细胞受到污染或原始分类错误)。

scPred_6

scPred可以在细胞类型不平衡时准确分类。研究人员利用scPred从11位大肠癌患者的肿瘤和正常黏膜匹配样本的杂种新细胞群中预测上皮肿瘤细胞。ROC曲线下平均面积为0.964(95%,置信区间0.955-0.972),PRC曲线为0.992(95%,置信区间0.989-0.995)

研究人员现在正进入下一阶段,将该方法转化为临床实践的认证测试。点击https://github.com/powellgenomicslab/scPred/ 可获取scPred。

From 研发团队:“我们的scPred方法为我们提供了早期检测的可能性;它可以让我们确定癌症患者的阶段,他们可能会对什么药物产生反应,或者他们的肿瘤细胞是否有对化疗产生耐药性的特征。这种新方法的潜力是巨大的。”

参考文献
Alquicira-Hernandez J, Sathe A, Ji H P, et al. scPred: accurate supervised method for cell-type classification from single-cell RNA-seq data[J]. Genome Biology, 2019, 20(1): 1-17.
引用
Garvan Institute of Medical Research. "A way to 'fingerprint' human cells." ScienceDaily. ScienceDaily, 11 December 2019. .
图片来源:均来自于参考文献,如有侵权请联系删除。

上一篇下一篇