2023-04-03 3539文献解读
多组学技术和人工智能算法的同步发展推动了癌症精确医学的发展。2023年1月《Seminars in Cancer Biology》发表了一篇综述文章,全面总结了基于人工智能的多组学肿瘤分析的最新进展,重点介绍了基于人工智能的多组学技术在癌症诊断、分类、早期筛查、反应评估和预后预测方面的应用。
随着高通量生物技术的发展,已经开发了多种组学技术来表征不同但互补的生物信息,包括基因组学、表观基因组学、转录组学、蛋白组学和代谢组学等。
单细胞技术的出现为以单细胞分辨率研究组学特征提供了强大的解决方案,它可以捕获bulk omics数据无法获取的生物信息。随着各种单细胞组学技术的进步,现在可以生成多模态数据来回答各种生物学问题,例如肿瘤内异质性、肿瘤微环境重编程、转移传播和治疗耐药性。因此,单细胞组学技术有可能改善癌症医学的几个领域,包括早期检测、诊断和风险分层、无创监测和药物靶点发现。
作为医学影像学的两个主要分支,病理学和放射学在不同的生物学尺度上描述了肿瘤的不同特征。目前大多数食品和药物管理局批准的临床肿瘤学AI应用程序主要用于解析医学影像数据。医学成像领域的快速发展促使人们需要研究图像特征、分子特征和临床结果之间的关联。最近放射基因组学的出现加速了医学成像和基因组学技术的融合,这通过研究成像特征和基因组模式之间的相关性来扩展放射组学方法。放射基因组学为疾病进展和治疗反应的潜在机制提供了见解,同时允许生物标志物的发现,以无创的方式进行精确诊断和管理。目前已探索了人工智能策略,将成像特征集成到多组学数据源中,并为医学研究开辟了新方向。
大量证据强调微生物群在癌症中的关键作用,微生物组已成为癌症研究中越来越受关注的领域。其他诊断方式,例如游离DNA (cfDNA) 分析和临床实验室系列测试,可提供纵向数据信息以监测肿瘤进展。此外,作为补充数据源的临床数据可以为诊断提供有意义的信息。人工智能驱动的多组学和多模态数据综合分析可以通过从复杂数据中提取知识来阐明研究结果,从而为患者定制治疗提供新的机会。
最近的人工智能技术已经从“浅层”学习架构发展到“深度”学习架构。作为人工智能的一个重要分支,机器学习(ML)可以自动学习捕捉复杂的模式,并根据数据做出智能决策。ML在癌症研究和临床肿瘤学中有着非常广泛的应用。特别是,在多组学数据快速增长的推动下,属于ML子领域的基于深度学习(DL)的方法已成为生物医学数据分析的强大工具。
人工智能方法在不同的基因组学领域取得了显著的成功,例如3D基因组结构预测、表观基因组修饰和染色质可及性建模、基因组注释、sgRNA设计和基因组编辑的结果预测。在转录组学领域,人工智能方法已被广泛用于研究基因表达、选择性剪接和转录因子结合,促进疾病进展分子机制的发现。值得注意的是,转录组学技术结合ML可以作为早期检测、癌症分类以及预后和复发预测的辅助诊断工具。
人工智能方法在蛋白组学和代谢组学分析中也得到了很好的应用。AI方法适用于基于MS的蛋白组学分析,特别是识别未知肽,具有较高的准确性。此外,人工智能方法还被用于解析蛋白质-核酸和蛋白质-蛋白质相互作用,这对多种生物过程具有重要意义。同样,代谢组学研究也高度依赖人工智能方法。通过使用AI算法,代谢组学的数据处理和分析得到了进一步改进。人工智能方法在代谢组学研究中的另一个有趣的应用领域是代谢建模,其中人工智能算法通常用于建模过程中的参数优化和代谢网络重建。目前,人工智能方法还承担着单细胞组学分析中的大部分任务,包括数据去噪和插补、批次效应校正、细胞聚类、轨迹推断等。近年来,人工智能在放射和病理学分析中也取得了前所未有的成功,启发了我们对癌症发生和发展机制的认识。与此同时,人工智能辅助的放射和病理学技术可以跟踪疾病状态动态,并有助于癌症的诊断、预测和治疗。总之,人工智能方法在不同的组学研究中取得了显著的成就,并在很大程度上促进了我们对生物机制的理解。
多组学数据有三种整合策略,包括早期整合、中期整合和后期整合。早期整合是整合分析最直接的策略,它只需将每个组学层的不同特征连接到一个整合数据集中。然而,由于特征空间太大,这可能会导致“维数灾难”。在后期整合中,在每个组学层独立进行分析,然后在最后整合结果。与上述两种整合策略相比,中间整合可以使用各种转换方法将不同的模态数据转换为适当的中间表示,从而能够捕获嵌入每个组学中的更多互补信息,并考虑跨组学层的新交互。
在多组学的范围内,一系列人工智能方法,特别是ML,已经广泛应用于多组学数据的整合分析,这可以系统地捕捉多组学之间的复杂性,并建立更可靠的多组学关联。此外,人工智能方法可以有效解决数据异构性、“维度灾难”、数据缺失、大数据可扩展性和类不平衡等问题。通过AI算法(如临床和电子健康记录数据和临床实验室测试)整合多组学数据和非组学数据,还可以提供机会将基因型和临床表型联系起来,并全面描述肿瘤状态。因此,基于AI的多模态数据的综合分析对于精确医学的临床诊断和决策是有可行性的。随着多组学技术的发展和新分析方法的出现,基于AI的多组学分析将极大地促进治疗策略的发展,特别是针对精准医学。
癌症治疗的前提是准确诊断癌症亚型并提出最佳治疗策略,以延长患者的生存期。目前,人工智能算法可以集成来自多个平台的数据,包括基因组学、表观基因组学、转录组学、蛋白组学、代谢组学、病理学、放射学等,以更准确地识别癌症亚型,并为预测癌症预后和治疗反应提供强大的工具。
多组学技术在精确肿瘤学领域有着特别的前景,人工智能可以利用各种来源的信息内容,为了解癌症生物学开辟新的视野,并为准确诊断癌症和制定更精确的治疗策略提供机会。尽管仍面临数据稀缺、模态数据的高度异质性和复杂性、缺乏可解释性和可重复性等挑战,但目前已有大量的持续工作来解决这些问题,并促进基于AI多组学分析的临床转化。随着临床实践中产生的多组学数据越来越多,人工智能技术将提供有意义的信息来指导临床决策,最终推动精准癌症管理的创新。
参考文献He X, Liu X, Zuo F, et al. Artificial intelligence-based multi-omics analysis fuels cancer precision medicine[C]//Seminars in Cancer Biology. Academic Press, 2022.