2024-04-29 81文献解读
单细胞蛋白质组学测序技术揭示了细胞中蛋白质与蛋白质之间的相互作用、翻译后修饰以及蛋白质形态的动态变化。然而,多肽定量的不确定性估计、数据缺失、批次效应和高噪声阻碍了单细胞蛋白质组学数据的分析。2024年3月,《Nature Methods》发表了一种用于单细胞蛋白质组学数据分析的通用框架——scPROTEIN,可以在一个统一的框架内估计肽定量的不确定性、对蛋白质数据去噪、消除批次效应和编码单细胞蛋白质组特异性嵌入。
scPROTEIN是一个单细胞蛋白质组学嵌入的深度图对比学习框架,通过提供多功能的细胞嵌入,在统一的框架中解决肽定量的不确定性、数据丢失、批量效应和高噪声。
首先,对于提供了原始肽信号强度的数据集,开发团队提出了一个多任务异方差回归模型来估计肽定量的不确定性,并以不确定性引导的方式将肽含量聚合到蛋白质水平。
然后,开发团队构建了一个图结构来表征单细胞蛋白质组数据,其中考虑共表达模式的消息传递过程有助于缓解数据丢失问题。还开发了一个带有设计的交替拓扑属性去噪模块的图形对比学习模型,该模型可以对蛋白质组数据进行去噪,并获得准确的表示。
此外,对比学习的判别性和去噪模块可以在不知道数据集先验知识的情况下缓解批量效应。最后,所学习的通用细胞嵌入可以应用于各种下游任务(即细胞聚类、批量校正和细胞类型注释)。
为了全面评估scPROTEIN的性能,开发团队在一系列单细胞蛋白质组数据集上应用了 scPROTEIN,证明其在细胞聚类、批量校正、细胞类型注释、临床分析和空间分辨蛋白质组数据探索方面是有效的。
聚类结果中,scPROTEIN这种基于图的嵌入方法在SCoPE2_Specht 数据集上的所有评估指标方面均取得了最佳性能。消融研究显示了scPROTEIN在SCoPE2_Specht数据集上获得的结果,在第1阶段进行和不进行不确定性估计,结合第2阶段来学习细胞表示,可以看出,scPROTEIN在执行不确定度调整后表现更好。
用scPROTEIN处理后,每种细胞类型内的细胞都被拉近,而不同细胞类型的细胞保持适当分离。这表明scPROTEIN保持了批不变的多样性特性;定量分析的结果scPROTEIN获得了最佳性能;以 nanoPOTS 作为参考集、N2 作为查询集时,结果表明 scPROTEIN 和 MAGIC 都正确标记了所有查询细胞 然而,当将标签从 N2 转移到 nanoPOTS 数据集时,MAGIC 的准确率下降到 0.885。scPROTEIN在将标签从 N2 转移到 nanoPOTS 数据集时达到了 0.984 的准确率,表现出稳定的性能;利用 scPROTEIN 的嵌入过程,两次 MS 测序采集的 U-937 细胞紧密聚集在一起,而其他细胞类型仍然可分离;定量基准测试结果表明,scPROTEIN通过将相同的细胞类型拉得更近,同时保持该任务中其他细胞类型的多样性(通过细胞类型和批量指标来衡量),从而实现了平衡的性能。总体而言,scPROTEIN 在消除批次效应同时保留生物变异性方面表现出了良好的性能。
scPROTEIN在临床分析和单细胞空间分辨蛋白质组数据分析等方面表现出广泛的适用性。
大量实验证明了scPROTEIN在基于MS和基于抗体的蛋白质组学上的通用性和优越性能。
scPROTEIN代码以 Python 实现,并在 GitHub和Zenodo发布,并附有详细说明:
https://github.com/TencentAILabHealthcare/scPROTEIN.
https://doi.org/10.5281/zenodo.10547614.
参考文献:Li, W., Yang, F., Wang, F. et al. scPROTEIN: a versatile deep graph contrastive learning framework for single-cell proteomics embedding. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02214-9