2024-08-12 92CNGBdb
2024年8月,国家基因库生命大数据平台支撑科研成果在《Nature》发表。该研究题为“Prognostic genome and transcriptome signatures in colorectal cancers”,公布了迄今全球首个大规模结直肠癌多组学的研究结果,并结合临床信息系统总结了与临床结果和疾病进展密切相关的分子特征。
此项研究的相关数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0004160。
全球范围内结直肠癌每年新增病例约190万例,发病率居所有癌症第三位,大约20%的患者在确诊时已发生转移,其死亡率更是高居各类癌症第二位,是严重威胁人类生命健康的重大疾病之一。随着高通量基因组测序分析在癌症队列研究中迅速发展,与结直肠癌相关的编码区突变已得到较为详尽的解析,针对特定突变基因或突变状态的靶向治疗、免疫治疗等逐步被纳入结直肠癌临床治疗的标准方案。利用组学特征构建分子分型对结直肠癌精准诊疗具有重要意义,但目前尚未有整合基因组变异和基因表达谱特征,对患者进行更精细分型,从而提高分子特征与临床结果和疾病进展相关性的大规模结直肠癌研究。同时,既往研究主要集中在外显子区域测序,限制了对全基因组范围内非编码区致病突变的探索,而全基因组测序则有助于对癌症基因组复杂变异进行解析。
为了加深对结直肠癌发病机制的理解,识别驱动事件并确定其预后特征,中瑞两国科研团队针对瑞典U-CAN队列(Uppsala/Umeå Comprehensive Cancer Consortium)中结直肠癌样本进行了测序分析。基于DNBSEQ测序平台,研究团队对1063名结直肠癌患者的样本进行了全基因组和转录组测序,包括782例结肠癌和281例直肠癌,21%(223例)是微卫星不稳定(microsatellite instability, MSI)肿瘤,总共生成近412T数据,其中94%的病人有完整的5年临床随访记录,形成目前全球最大的结直肠癌多组学研究。此研究系统绘制了与结直肠癌相关的基因组变异事件全景,联合基因表达分型揭示了与预后密切相关的分子特征。
根据全基因组的肿瘤突变负荷高低,患者被分为超突变型(23%, Hypermutated, HM)和非超突变型(77%, Non-Hypermutated, nHM)。由于MSI肿瘤通常因为DNA错配修复基因缺陷而表现出超突变特征,此队列中超90%的HM肿瘤为MSI。具有HM特征的微卫星稳定(microsatellite stability, MSS)肿瘤则携带POLE或其他DNA修复通路相关基因突变。APC, TP53和KRAS等驱动基因在MSS肿瘤突变频率更高,而PIK3CA及BRAF等的突变则在MSI肿瘤中更为富集。基于该队列的基因组突变共鉴定到96个显著突变基因,其中24个为潜在的新驱动基因,其中WNT, EGFR 和 TGF-β 通路相关的驱动基因与结直肠癌生存显著相关。
研究团队从Mutational Signature分析鉴定出47个已知的和9个新发现的结直肠癌突变特征(SBS-CRC1,SBS-CRC2,DBS-CRC1,DBS-CRC2,DBS-CRC3,DBS-CRC4,DBS-CRC5,ID-CRC1,ID-CRC2),其中SBS28和DBS-CRC5与POLE突变的MSS肿瘤显著相关,SBS-CRC1,、DBS-CRC3和ID-CRC1是DNA错配修复通路缺失的突变特征,而SBS44阳性的HM样本具有更长的生存期。新的突变特征将有可能成为结直肠癌早期诊断和预后评估的生物标志物,为结直肠癌的预防和治疗提供新的思路。
进一步地,通过时序分析研究团队推导出9个与癌症发生早期事件相关的驱动突变基因(APC, TP53, KRAS, BRAF, ZFP36L2, TCF7L2, FBXW7, BCL9L 和 SOX9),而TRPS1, GNAS 和 CEP170这3个基因的突变则倾向于在癌症发生的后期阶段出现,这些发现为结直肠癌的早期检测和靶向治疗的开发提供了临床研究策略,并揭示了与肿瘤后期侵袭和转移相关的重要分子变化。此外,利用高深度全基因组测序的优势,本研究在线粒体基因组和非编码区域中也发现了与疾病相关的突变,并对与疾病进展显著相关的突变进行了系统性的总结,这些突破性的发现将进一步推动对结直肠癌发病机制的理解。
研究团队利用同一肿瘤样本的基因组和转录组数据对突变基因和基因表达水平进行了整合分析,验证了RTK-RAS, PI3K, P53和TGF-β通路相关基因EGFR, KRAS, PIK3CA, CDKN2A, TGFBR1和ACVR2A的突变与基因表达增加有关,而无论是否为MSI肿瘤,其抑癌基因APC, PTEN和TP53上的突变均导致基因表达降低。
研究团队进一步基于肿瘤基因表达差异谱解析出5个具有不同分子特征的预后亚型(Colorectal Cancer Prognostic Subtypes, CRPS),相较于结直肠癌经典的共识分子分型CMS(Consensus Molecular Subtypes, CMS),利用独立队列转录组数据构建的CRPS能更加准确地预测预后,并在不同结直肠癌队列中得到验证。值得注意的是,在经典的CMS分型中,CMS4间质型肿瘤具有基质细胞浸润较高、TGF-β通路激活等特征,且被普遍认为是预后较差的肿瘤,但在本研究新构建的CRPS分型系统中,部分CMS4型肿瘤实际上被判定为预后较好的CRPS2型,而CRPS2型肿瘤具有上皮细胞特征,且在基因组20q11区域具有较多的扩增,这些结果提示整合基因组和转录组数据的分子分型,能得到更精细准确的患者预后分层,对优化临床肿瘤分型,指导结直肠癌精准治疗具有重要意义。
研究团队基于深度学习算法ResNet50开发的CRPS分型工具已经在github开源(https://github.com/SkymayBlue/U-CAN_CRPS_Model),为结直肠癌后续的研究和治疗提供更加精准的分子分型,为预后评估和深入理解疾病机制提供了重要信息和方法。
此项研究实现了迄今为止最大规模的结直肠癌基因组和转录组的综合分析,并将分子层面的发现与高质量的临床数据相结合,从而识别关键预后因子,这使这项研究有别于其他绝大多数癌症基因组学的研究。研究组不仅发现多种突变事件对预后的显著预测效应,新构建的表达谱精细分型也将在未来指导结直肠癌个体化诊疗中发挥重要作用。
乌普萨拉大学Tobias Sjöblom、Bengt Glimelius教授、华大基因林从博士和吴逵研究员为文章共同通讯作者;乌普萨拉大学Luís Nunes、华大基因李甫强、吴美珍和罗甜为文章共同第一作者。
关于U-CAN队列:Uppsala University联合Umeå University、Stockholm university、Kungliga Tekniska Högskolan (KTH) 等研究团队于2010年启动U-CAN队列建设,截至2023年底,已经采集了27,476名癌症患者的样本、影像及临床数据,该队列对患者进行每年定期随访,近20%的患者随访超过10年,75%以上的患者随访超过5年。
(https://www.uu.se/en/research/u-can/about-u-can/u-can-statistics)
参考文献:Nunes, L., Li, F., Wu, M. et al. Prognostic genome and transcriptome signatures in colorectal cancers. Nature (2024). https://doi.org/10.1038/s41586-024-07769-3
信息来源于:“中国科学院杭州医学研究所”和“华大集团BGI”公众号。