【分类+biomarkers识别】MOGONE:一种基于深度学习的多组学数据分类新算法

2021-09-26 1425文献解读

为了充分利用组学技术的进步,更全面地了解人类疾病,需要新的计算方法对多种类型的组学数据进行综合分析。2021年6月《Nature Communications 》发表了一个有监督的多组学数据分析新方法:MOGONE,它是第一个利用图卷积网络(GCNs) 进行组学数据学习以对新样本进行有效类别预测的有监督的多组学集成方法。

MOGONE-1.png

多年来,人们提出了许多方法来对各种问题进行多组学数据整合。然而,大多数现有的研究集中于无监督的多组分数据整合。随着个性化医疗的快速发展,具有详细注释的管理数据集(用于描述样本的表型或特征)变得越来越广泛。因此,有监督的多组学整合方法越来越受到关注,这种方法可以识别疾病相关的生物标志物并对新样本进行预测。

MOGONE是什么?

MOGONET是一个用于生物医学分类任务的多组学数据分析框架,其在标签空间将组学特定学习与多组学综合分类相结合。具体而言,MOGONET利用GCNs进行组学特定学习。与全连通的神经网络相比,GCN充分利用了相似网络描述的组学特征和样本间的相关性,提高了分类性能。除了直接连接每个组学数据类型的标签分布外,MOGONET还利用视图相关性发现网络(VCDN)探索标签空间的交叉组学相关性,以实现有效的多组学集成。

MOGONE-2.png

在预处理和特征预选以去除噪声和冗余特征之后,MOGONET首先使用GCN分别学习每种组学数据类型的分类任务。然后,进一步利用每个特定于组学的GCN生成的初始预测来构建跨组学发现张量,该张量反映了跨组学标签的相关性。最后,跨组学发现张量被重新塑造成一个向量并转发到VCDN以进行最终的标签预测。VCDN可以通过探索更高级别标签空间中不同组学数据类型的潜在相关性,有效地整合来自每个特定组学网络的初始预测。MOGONET是一个端到端的模型,组学特定的GCN和VCDN交替训练直到收敛。

MOGONE的功能测试

研究团队通过广泛的生物医学分类应用,包括阿尔茨海默病患者分类、脑低级别胶质瘤(LGG)的肿瘤分级分类、肾癌类型分类和浸润性乳腺癌亚型分类,展示了MOGONET的功能和通用性;指出了整合多种组学数据类型的必要性,以及通过综合消融研究结合GCN和VCDN进行多组学数据分类的重要性;此外还证明了MOGONET可以识别与所研究的生物医学问题相关的重要组学特征和生物标记。

MOGONET在各种分类任务中优于现有有监督的多组学集成方法。研究团队比较了MOGONET与9种现有的组学数据分类算法的分类性能,观察到MOGONET在大多数分类任务中的表现优于其他方法,唯一的例外是在LGG等级分类中,XGBoost和MOGONET的平均AUC相同。

MOGONET 在各种分类任务中的表现优于其变化。为了检验GCN和VCDN对有效的多组学数据分类的必要性,研究团队对其提出的方法进行了广泛的消融研究,其中比较了MOGONET的三种额外变化(NN_NN、NN_VCDN、MOGONET_NN),观察到MOGONET在所有分类任务中都优于NN_NN和NN_VCDN。虽然MOGONET_NN在LGG等级分类等任务中取得了与MOGONET相似的性能,但在所有分类任务中,MOGONET始终比MOGONET_NN产生更好的平均度量。

MOGONE-3.png

MOGONET可以扩展到不同数量的组学数据类型。为了证明MOGONET在不同数据模式选择下的有效性,研究团队仅使用两种类型的组学数据:mRNA和DNA甲基化数据,在BRCA数据集上比较了其与其他方法的性能,观察到与三种不同的组学数据类型的情况类似,当使用mRNA和DNA甲基化数据进行训练时,MOGONET仍然始终优于BRCA数据集上的现有方法。

另外,研究团队在mRNA、DNA甲基化和miRNA数据上证明了在生物医学应用中整合多种类型的组学数据以提高分类性能的必要性,同时进一步证明了GCN在组学数据分类问题中的有效性,以及使用VCDN对组学数据进行跨组学学习的有效性。

MOGONE-4.png

MOGONET在不同超参数k下保持性能稳定。为了进一步证明超参数k在二元分类和多类分类任务中对MOGONET性能的影响,研究团队使用ROSMAP数据集和BRCA数据集在广泛的k值下训练MOGONET,观察到MOGONET的分类性能随着k的变化而波动,但MOGONET对k的变化仍然是稳健的,因为它在不同的k值下一直优于现有方法。

MOGONE-5.png

MOGONET鉴定的重要生物标志物。通过MOGONET鉴定的生物标志物在每种疾病中的功能和富集的生物过程方面是相当多样化的。对于AD患者分类,MOGONET将8个mRNA特征、5个DNA甲基化特征和17个miRNA特征确定为前30个重要的生物标记物;对于BRCA PAM50亚型分类,MOGONET将15个mRNA特征、9个DNA甲基化特征和6个miRNA特征确定为前30个重要的生物标记物;同时,MOGONET鉴定的高等级基因和miRNA也被证明与AD和乳腺癌相关。

MOGONE-6.png

此外,研究团队还通过对BRCA数据集中来自不同机构的不同患者队列进行训练和测试来评估其性能,观察到MOGONET与随机划分训练和测试样本的实验取得了相似的性能,这表明MOGONET模型可以推广到同一分类任务的不同数据集。

虽然文中涉及的多组学分类任务中只利用了mRNA、DNA甲基化和miRNA数据,但特定于组学的GCN和多组学整合组件都可以被扩展以适应不同或更多类型的数据。因此,MOGONET是一个有监督的多组学分类框架,可以被推广以适应许多不同的组学数据类型,其具有卓越的性能和良好的可解释性。

文中涉及的源代码可以从GitHub下载 :https://github.com/txWang/MOGONET

参考文献
Wang, T., Shao, W., Huang, Z. et al. MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification. Nat Commun 12, 3445 (2021). 
图片来源于NC官网和参考文献,如有侵权请联系删除。

上一篇下一篇