2024-03-11 68文献解读
传统的机器学习 (ML) 技术在生成用于组学分析的预测模型方面取得了部分成功,但在处理数据内的潜在关系以实现更准确的预测方面存在局限性。2024年2月,《Journal of Human Genetics》发表综述文章,探讨了通过应用深度学习 (DL),特别是卷积神经网络 (CNN),预测建模发生的革命性转变。
利用DeepInsight等转换方法,可以将以表格(类似表格,包括向量)形式存在的自变量 组学数据转换为类似图像的表示形式,从而使 CNN 能够有效捕捉潜在特征。这种方法不仅能增强预测能力,还能利用迁移学习,减少计算时间,提高性能。然而,将CNN整合到预测组学数据分析中并非没有挑战,包括与模型可解释性、数据异质性和数据大小相关的问题。这篇综述阐明了这些复杂性,并为未来的研究指明了方向,以充分发挥人工智能的优势。
虽然将表格到图像的转换与 CNN 结合起来进行全局分析取得了重大进展,但仍有一系列挑战和问题亟待解决:
DeepInsight旨在将表格数据(包括组学数据)转换为反映数据背后潜在结构的类图像表示。其流程简单来说是将包含基因表达或元素的特征向量(x)通过变换(T)转换为特征矩阵(M)。
由此产生的类图像表示非常适合CNN分析,在多场景的性能评估中DeepInsight相对于其他几种ML方法提供了改进的性能;与多种神经网络架构、优化随机森林管道 (AutoBorutaRF)、基于支持向量机的分类器和三个最近的药物反应预测管道进行了比较( MOLI 和 Super.FELT等)。根据模型AUC-ROC的测量,在所有这些方法中,DeepInight-3D的性能提高了7-29%。
DeepFeature补充了DeepInsight引入的分析功能。利用CAM,DeepFeature提取并突出显示影响模型决策的关键特征,在基因组学中,这意味着识别对于确定特定表型结果或疾病表现至关重要的关键基因或元件。
为解决跨多组学的异构数据模态问题,研究人员开发了 DeepInsight-3D,它是原始DeepInsight 的扩展,专为多组学分析而定制。其通过适应多组数据,将不同组类型的信息集成到统一的三维空间中。这种3D表示捕获了不同组学数据类型之间的协同交互,促进了整体理解,并为分析提供了更丰富的背景。
DeepInsight-3D的应用之一是肿瘤学领域,特别是用于抗癌药物反应预测。虽然有限的药物反应数据导致了模型的稳定性问题,但这一概念在处理多模态数据方面是向前迈出的一步。通过在3D中表示多组数据,DeepInsight-3D可以捕获基因之间复杂的相互作用。当与患者特异性数据相结合时,该工具可以预测肿瘤对特定抗癌药物的反应。这种预测有可能通过指导基于个体患者概况的治疗决策来彻底改变医学。
使用Cancer Cell Line Encyclopedia (CCLE)和Genomics of Drug Sensitivity in Cancer (GDSC),以及The Cancer Genome Atlas (TCGA)和patient-derived xenografts (PDX)数据集分别用于学习和测试CNN,DeepInsight-3D显示出72%的准确率,比其他基于深度学习的方法高出7%以上。
DeepFeature与DeepInsight-3D结合使用,使用CAM提取关键特征,突出显示3D表示中显著影响预测的特定区域。这种特征选择不仅对模型的可解释性至关重要,而且对指导后续的生物学研究也至关重要。
scDeepInsight通过将表格-图像转换方法应用于scRNA-seq数据,彻底改变了细胞类型注释。这种转换后的表示与CNN的分析强度相结合,有助于精确和稳定的细胞类型识别。该模型不是仅仅依赖于已知的标记,而是利用单个细胞的整个转录组谱,提供更全面的分类。这是通过在参考数据集上训练scDeepInsight并识别查询数据集的细胞类型来完成的。与其他竞争方法相比,性能提高超过7%。
scDeepInsight最有前景的一个方面是它有可能发现以前未被发现或罕见的细胞类型。通过将scRNA-seq数据转换为视觉景观,在传统分析中可能被忽视或合并的类群脱颖而出。这些独特的细胞簇代表了潜在的新细胞类型或过渡状态,进一步加深了对组织生物学、发育过程和疾病机制的理解。
除了分类,scDeepInsight还有助于识别标记基因。通过逆向工程类似图像的表示,并将其与基因组学数据联系起来,可以确定在特定细胞类型中明显表达的基因。这不仅巩固了鉴定,而且为功能分析、治疗靶向和进一步的生物学调查提供了基础。
DeepInsight及其衍生工具基于图像的数据分析与组学数据相结合,促进了之前难以实现的细微解释:
虽然将表格到图像转换与cnn进行组学分析的合并已经取得了重大进展,但仍然存在需要解决的挑战:
4. 可解释性和生物相关性:包括细胞神经网络在内的DL模型的“黑匣子”性质导致了CAM和DeepFeature等技术的出现。虽然这些工具很有前景,但确保数据表示的可解释性和保持其生物学相关性是最重要的挑战。
5. 数据挑战、模型复杂性和过拟合:组学数据本质上是异构的,包括基因组、表观基因组、转录组、蛋白质组和代谢组数据等信息。适应这些不同的数据类型并处理数据缩放、大小和过拟合问题是非常重要的问题。在模型复杂性、容量和可用数据之间取得平衡对于防止过拟合至关重要,特别是在处理高维组学数据时。
6. 技术挑战:需要解决超参数调优、计算资源限制以及跨不同条件和平台的模型通用性等问题。
7. 集成和基准测试:将特定领域的知识注入到模型训练中,并对已建立的方法进行严格的基准测试,对于评估模型的真正潜力至关重要。
8. 未来展望:DL和生物学的融合,正如这些方法所表现的那样,在未来几年可能会加强。我们可以设想一个未来,实时基因组数据转换和分析将成为临床环境的标准,加快诊断和治疗决策。此外,预计还会出现更稳健的模型,以适应各种组学数据类型。
9. 走向个性化医疗:这些进步的最终目标是为个人定制医疗干预措施。利用表格到图像转换器和在大量数据集上训练的CNN的见解,我们接近实现真正的个性化医疗。无论是药物反应、揭示分子机制还是识别新的细胞状态,这些工具都有望制定适合个体基因蓝图的治疗方法。
参考文献
Sharma, A., Lysenko, A., Jia, S. et al. Advances in AI and machine learning for predictive medicine. J Hum Genet (2024). https://doi.org/10.1038/s10038-024-01231-y