热点综述 | 人工智能和机器学习在预测医学中的进展

2024-03-11 107文献解读

传统的机器学习 (ML) 技术在生成用于组学分析的预测模型方面取得了部分成功,但在处理数据内的潜在关系以实现更准确的预测方面存在局限性。2024年2月,《Journal of Human Genetics》发表综述文章,探讨了通过应用深度学习 (DL),特别是卷积神经网络 (CNN),预测建模发生的革命性转变。

ML-1.png

利用DeepInsight等转换方法,可以将以表格(类似表格,包括向量)形式存在的自变量 组学数据转换为类似图像的表示形式,从而使 CNN 能够有效捕捉潜在特征。这种方法不仅能增强预测能力,还能利用迁移学习,减少计算时间,提高性能。然而,将CNN整合到预测组学数据分析中并非没有挑战,包括与模型可解释性、数据异质性和数据大小相关的问题。这篇综述阐明了这些复杂性,并为未来的研究指明了方向,以充分发挥人工智能的优势。

ML-2.png

推进CNN在组学分析中应用的挑战

ML-3.png

虽然将表格到图像的转换与 CNN 结合起来进行全局分析取得了重大进展,但仍有一系列挑战和问题亟待解决:

  1. 可解释性:DL模型(包括 CNN)由于其复杂的架构通常被视为“黑匣子”。理解影响模型决策的特定基因或元素的能力对于阐明生物学机制(例如途径)至关重要。尽管已经引入了像 DeepFeature这样利用类激活图 (CAM)  的技术,但挑战仍然存在,需要开发模型来解释学习的特征以获得更深入的见解。
  2. 数据异质性:组学数据本质上是异质的,涵盖不同的生物信息类型,例如基因表达、甲基化和突变。在保留每个潜在结构的同时适应各种组学数据类型构成了挑战。
  3. 数据规模和大小:包括 CNN 在内的 DL 模型需要大量数据才能实现有效的泛化。然而,组学数据集尤其是与罕见疾病或特定病症相关的数据集,可能样本量有限。克服小规模数据集的限制并确保模型的稳健性是至关重要的考虑因素。
  4. 过度拟合:众所周知,传统的 ML 方法,尤其是在处理高维组学数据时,容易出现过度拟合。这导致了一种理解,即应该仔细管理模型的复杂性,以防止这种过拟合。然而,最近的理论进展正在挑战这一观点,特别是在DL领域。具体来说,DL算法在反向传播学习过程中具有内在的正则化特征。有趣的是,这些功能实际上可以降低网络扩展时过度拟合的风险 - 与人们的预期相反,添加更多节点或层可以使模型更加稳健。这颠覆了我们对经典统计和ML的传统理解,模型复杂性的增加通常会加剧过度拟合。因此,虽然平衡模型复杂性、容量和数据的重要性仍然存在,但这些新见解表明,在 DNN 背景下实现这种平衡的考虑因素可能有根本不同。
  5. 超参数调整:DL模型包含影响其性能的多个超参数。识别特定组学数据集的最优超参数集可能需要耗费大量时间,需要专业化。贝叶斯优化技术为探索最优超参数提供了途径。
  6. 计算资源:训练DL模型,尤其是CNN,可能会使计算资源紧张。对于资源有限的研究人员来说,优化训练过程和探索迁移学习等技术至关重要。
  7. 生物相关性:虽然模型将组学数据转换为类似图像的表示,但保留这些表示的生物相关性仍然至关重要。验证转换数据在捕捉潜在生物机制方面的意义是一项挑战。
  8. 通用性:确保模型在不同实验条件、平台和生物环境下的通用性需要引起重视。虽然最近的研究已将来自不同平台的单细胞数据整合在一起,通过应用 CNN 将表格转换为图像进行细胞识别,但仍有必要在这一方向开展进一步的研究。
  9. 与领域知识相结合:在模型训练过程中注入特定领域的知识可提高可解释性和结果相关性。开发将先验生物学知识与基于CNN的分析无缝集成的方法是有希望的。
  10. 基准测试和比较:对已建立的方法进行严格的基准测试和跨数据集比较对于评估模型的真正潜力至关重要。

DeepInsight和DeepFeature:组学数据分析新视角

DeepInsight

DeepInsight旨在将表格数据(包括组学数据)转换为反映数据背后潜在结构的类图像表示。其流程简单来说是将包含基因表达或元素的特征向量(x)通过变换(T)转换为特征矩阵(M)。

ML-4.png

由此产生的类图像表示非常适合CNN分析,在多场景的性能评估中DeepInsight相对于其他几种ML方法提供了改进的性能;与多种神经网络架构、优化随机森林管道 (AutoBorutaRF)、基于支持向量机的分类器和三个最近的药物反应预测管道进行了比较( MOLI 和 Super.FELT等)。根据模型AUC-ROC的测量,在所有这些方法中,DeepInight-3D的性能提高了7-29%。

DeepFeature

DeepFeature补充了DeepInsight引入的分析功能。利用CAM,DeepFeature提取并突出显示影响模型决策的关键特征,在基因组学中,这意味着识别对于确定特定表型结果或疾病表现至关重要的关键基因或元件。

ML-5.png

DeepInsight-3D

为解决跨多组学的异构数据模态问题,研究人员开发了 DeepInsight-3D,它是原始DeepInsight 的扩展,专为多组学分析而定制。其通过适应多组数据,将不同组类型的信息集成到统一的三维空间中。这种3D表示捕获了不同组学数据类型之间的协同交互,促进了整体理解,并为分析提供了更丰富的背景。

ML-6.png

DeepInsight-3D的应用之一是肿瘤学领域,特别是用于抗癌药物反应预测。虽然有限的药物反应数据导致了模型的稳定性问题,但这一概念在处理多模态数据方面是向前迈出的一步。通过在3D中表示多组数据,DeepInsight-3D可以捕获基因之间复杂的相互作用。当与患者特异性数据相结合时,该工具可以预测肿瘤对特定抗癌药物的反应。这种预测有可能通过指导基于个体患者概况的治疗决策来彻底改变医学。

使用Cancer Cell Line Encyclopedia (CCLE)和Genomics of Drug Sensitivity in Cancer (GDSC),以及The Cancer Genome Atlas (TCGA)和patient-derived xenografts (PDX)数据集分别用于学习和测试CNN,DeepInsight-3D显示出72%的准确率,比其他基于深度学习的方法高出7%以上。

DeepFeature与DeepInsight-3D结合使用,使用CAM提取关键特征,突出显示3D表示中显著影响预测的特定区域。这种特征选择不仅对模型的可解释性至关重要,而且对指导后续的生物学研究也至关重要。

scDeepInsight

scDeepInsight通过将表格-图像转换方法应用于scRNA-seq数据,彻底改变了细胞类型注释。这种转换后的表示与CNN的分析强度相结合,有助于精确和稳定的细胞类型识别。该模型不是仅仅依赖于已知的标记,而是利用单个细胞的整个转录组谱,提供更全面的分类。这是通过在参考数据集上训练scDeepInsight并识别查询数据集的细胞类型来完成的。与其他竞争方法相比,性能提高超过7%。

ML-7.png

scDeepInsight最有前景的一个方面是它有可能发现以前未被发现或罕见的细胞类型。通过将scRNA-seq数据转换为视觉景观,在传统分析中可能被忽视或合并的类群脱颖而出。这些独特的细胞簇代表了潜在的新细胞类型或过渡状态,进一步加深了对组织生物学、发育过程和疾病机制的理解。

除了分类,scDeepInsight还有助于识别标记基因。通过逆向工程类似图像的表示,并将其与基因组学数据联系起来,可以确定在特定细胞类型中明显表达的基因。这不仅巩固了鉴定,而且为功能分析、治疗靶向和进一步的生物学调查提供了基础。

DeepInsight及其衍生工具基于图像的数据分析与组学数据相结合,促进了之前难以实现的细微解释:

  1. 重新定义组学数据解释:通过DeepInsight或类似技术将组学数据转换为类似图像的表示,无疑通过捕捉数据(如组学数据)背后的潜在结构和连贯性,扩大了我们的分析能力和稳健性。它的适应性,从它与各种方法的融合中可以看出,突出了该技术的动态潜力。
  2. 整体多组学整合:整合模型的出现凸显了基因组学中对更全面方法的日益需求。由于对单组数据的依赖可能会受到限制,未来可能会更加依赖DeepInsight及其衍生物(如DeepInsight-3D)等工具,以提供生物系统的整体视角。它们的应用,特别是在抗癌药物反应预测等领域,突出了它们潜在的临床相关性。
  3. 解码细胞异质性:由scDeepInsight等工具提供支持的单细胞分析改变了我们对细胞景观的理解。新的细胞类型和标记基因的发现突显了其对细胞生物学做出巨大贡献的潜力。

虽然将表格到图像转换与cnn进行组学分析的合并已经取得了重大进展,但仍然存在需要解决的挑战:
4. 可解释性和生物相关性:包括细胞神经网络在内的DL模型的“黑匣子”性质导致了CAM和DeepFeature等技术的出现。虽然这些工具很有前景,但确保数据表示的可解释性和保持其生物学相关性是最重要的挑战。
5. 数据挑战、模型复杂性和过拟合:组学数据本质上是异构的,包括基因组、表观基因组、转录组、蛋白质组和代谢组数据等信息。适应这些不同的数据类型并处理数据缩放、大小和过拟合问题是非常重要的问题。在模型复杂性、容量和可用数据之间取得平衡对于防止过拟合至关重要,特别是在处理高维组学数据时。 6. 技术挑战:需要解决超参数调优、计算资源限制以及跨不同条件和平台的模型通用性等问题。
7. 集成和基准测试:将特定领域的知识注入到模型训练中,并对已建立的方法进行严格的基准测试,对于评估模型的真正潜力至关重要。
8. 未来展望:DL和生物学的融合,正如这些方法所表现的那样,在未来几年可能会加强。我们可以设想一个未来,实时基因组数据转换和分析将成为临床环境的标准,加快诊断和治疗决策。此外,预计还会出现更稳健的模型,以适应各种组学数据类型。
9. 走向个性化医疗:这些进步的最终目标是为个人定制医疗干预措施。利用表格到图像转换器和在大量数据集上训练的CNN的见解,我们接近实现真正的个性化医疗。无论是药物反应、揭示分子机制还是识别新的细胞状态,这些工具都有望制定适合个体基因蓝图的治疗方法。

参考文献
Sharma, A., Lysenko, A., Jia, S. et al. Advances in AI and machine learning for predictive medicine. J Hum Genet (2024). https://doi.org/10.1038/s10038-024-01231-y

上一篇下一篇