2022-08-18 913文献解读
近日《Briefings in Bioinformatics》发表了一种空间信息引导的深度学习方法:Hist2ST,用于从全载玻片图像(WSIs)进行空间转录组预测。
此前虽然已经开发了几种利用组织学图像预测基因表达的方法,但它们并没有同时包括2D视觉特征和空间相关性,从而限制了它们的性能。基于此,研究人员开发了Hist2ST,一种基于深度学习的模型,使用组织学图像预测RNA-seq表达。
Hist2ST由三个模块组成:Convmixer、Transformer和Graph Neural Networks。具体而言,在每个测序点,相应的组织学图像被裁剪成图像块。图像块被送到Convmixer模块中,以通过卷积操作捕获图像块内的2D视觉特征。学习的特征被送到Transformer模块中,以通过自注意力机制(self-attention)捕获全局空间相关性。然后,Hist2ST通过图神经网络(Graph Neural Networks)显式捕获邻域关系。最后,通过遵循零膨胀负二项(ZINB)分布来预测基因表达。为了减轻小空间转录组学数据的影响,采用自蒸馏(self-distillation)机制对模型进行有效学习。
Hist2ST在HER2阳性乳腺癌和皮肤鳞状细胞癌数据集上进行了测试,结果表明在基因表达预测和后续空间区域识别方面,Hist2ST优于现有方法。进一步的通路分析表明,Hist2ST模型可以保留生物信息。
在HER2+和cSCC数据集上,Hist2ST的平均皮尔逊相关系数分别比排名第二的方法HisToGene高9%和11%。
所有方法在E1-3和F1-3组织切片上的表现均较低,而Hist2ST仍优于二级方法HisToGene(HisToGene比Hist2ST小8%)。在HER2+和cSCC数据集中,ST-Net在大多数组织切片上的性能最低。
这些结果表明,Hist2ST模型可以有效地从组织学图像预测基因表达模式。
为了进一步了解预测的基因表达,研究团队将组织学图像上的top预测基因可视化。可视化结果表明,Hist2ST的预测基因在这四个最重要的基因上达到了最高的皮尔逊相关系数。与其他方法相比,Hist2ST具有与观察到的基因表达更相似的基因表达模式。此外,所有这四个top预测基因都是乳腺癌的标记基因。
研究团队还采用了类似的策略来可视化cSCC数据集上p值最小的组织切片上的四个顶部基因(MSMO1、NDRG1、ITGA6和DMKN),发现这四个top基因是文献中报道的标记基因。
就这些基因的平均皮尔逊相关系数而言,Hist2ST始终优于竞争方法,表明Hist2ST模型能够准确预测基因表达和储备标记基因信息。
为了评估每种方法在检测整个组织学图像中的空间区域方面的性能,研究团队使用每种方法预测的基因表达进行了K-means聚类。Hist2ST模型的平均ARI比二级方法HisToGene高7%,在平均ARI方面也比观察到的基因表达高5%。通过Hist2ST模型学习的基因表达可能包含额外的图像信息。HisToGene的平均ARI与观察到的基因表达相似。ST-Net在组织切片E1上获得最高的ARI,而在其他组织切片上表现较低。相对而言,使用Hist2ST预测的基因表达识别的空间区域比其他方法更符合病理学家注释的区域。
综上Hist2ST能够从组织学图像中生成空间转录组学数据,以阐明组织的分子特征。
文中实验使用的所有源代码均已保存在如下链接: https://github.com/biomed-AI/Hist2ST.