2021-09-27 1498CNGBdb
2020年12月7日,来自西湖大学的郑钜圣团队联合中山大学陈裕明团队及南方医科大学周宏伟团队,在Diabetes Care杂志在线发表了题为“Interpretable machine learning framework reveals robust gut microbiome features associated with type 2 diabetes”的研究论文,其基于可解释机器学习AI算法发现及验证了2型糖尿病的核心菌谱。
此项研究中发现队列和验证队列1的16s测序数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0000829。
*上述研究数据为受控数据。如有下载需求请向国家基因库数据受控中心(CDA)申请授权。
2型糖尿病是一种受宿主遗传和环境因素综合影响的复杂疾病。近年来,其患病率在全球范围内迅速上升。已有证据表明,肠道微生物组成或结构的改变与2型糖尿病的发生发展紧密相关。然而,关于2型糖尿病相关的菌谱,不同的研究存在较大差异。探究稳健的影响2型糖尿病的肠道微生物菌谱,对2型糖尿病的治疗/预防具有重要的指导意义。
该研究纳入了3个独立的中国人群队列(1个发现队列,2个独立验证队列,总计逾9千人),基于可解释机器学习AI算法发现及验证了2型糖尿病的核心菌谱。该核心菌谱可有效预测2型糖尿病的发病风险,与空腹血糖前瞻性的增量显著正相关,粪菌移植实验进一步确认了潜在的因果关系。
此外,在整合代谢组大数据的基础上,该研究揭示了核心菌谱相关的血清代谢物,为进一步的机理探究提供了启示。最后,该研究表明,宿主的脂肪分布与核心菌谱存在交互作用,二者协同影响2型糖尿病的发病风险。
研究人员纳入了297个预测变量(包括肠道微生物构成及其它表型),采用机器学习模型——梯度提升决策树算法 (GBDT)构建预测模型,基于SHAP (Shapley Additive exPlanations)评估各预测变量对2型糖尿病预测的相对贡献度。最终发现了21个可有效预测2型糖尿病风险的变量,其中13个是肠道微生物菌种相关的变量(核心菌谱,包括:g_roseburia, f_lactobacillacea, c_alphaproteobacteria, c_deltaproteobacteria, o_lactobacillales, f_comamonadaceae, f_mogibacteriaceae, g_clostridiaceae spp, g_butyrivibrio, g_megamonas, g_mogibacteriaceae spp, g_dorea, s_dispar)。除g_roseburia与f_lactobacillacea以外,其它核心菌种均为首次报道。其中,g_roseburia在2型糖尿病患者体内的丰度显著降低,g_roseburia是一种产生丁酸盐的属,已被证明可以因果地改善葡萄糖耐受性。乳杆菌属在2型糖尿病患者体内的丰度相对较高,可能引起慢性炎症,在该研究中,f_lactobacillacea在2型糖尿病患者中富集,在所有菌种中体现出最佳的预测性能。接下来,研究人员对比评估了发现的核心菌谱、宿主遗传及其它环境因素对2型糖尿病发病风险的预测性能。结果表明,与宿主基因及其他环境因素(传统风险因子+生活方式+饮食)相比,核心菌谱能更好地预测2型糖尿病的发病风险(图1A)。该结果在内部独立测试集及外部独立队列上都得到有效重复。
为了具体量化宿主肠道微生物紊乱引起的2型糖尿病发病风险,研究人员基于上述核心菌谱构建了微生物风险评分(MRS)。经矫正潜在混杂因子(年龄、性别、BMI、腰围、家庭收入、婚姻状况、教育程度、总能量摄入、运动、饮酒和吸烟状况)的泊松回归模型检验,MRS与2型糖尿病的患病风险呈显著正相关,该结果在另外两个独立验证队列有效重复(图1B)。为了消除不同测量方法可能带来的技术偏倚,研究团队纳入1068例基于宏基因组测序注释的样本(包括159例2型糖尿病患者),重复了MRS-2型糖尿病的关联(图1B)。进一步,研究者分别基于年龄及性别分层探究了MRS-2型糖尿病的关系,得到类似的结论。这些结果表明了MRS与2型糖尿病具有稳健的相关性。
进一步,研究者纳入249名基线空腹血糖正常(空腹血糖<7 mmol/l)的志愿者,通过线性模型探究了MRS与空腹血糖增量的前瞻性关系。结果显示,在两个统计模型中(Model1:矫正年龄、性别、BMI、教育程度、收入、婚姻状态、能量摄入、运动、吸烟、饮酒;Model2:矫正Model1因素+基线空腹血糖),MRS与未来血糖增量显著正相关(P<0.05)(图1C)。
为了评估核心菌谱对宿主代谢的影响,研究人员对来自发现队列(n=903)和外部验证1 (n=113)的血清样本进行了靶向代谢组学分析,并评估了测得的199种血清代谢物与2型糖尿病核心菌谱(即MRS)的关系。为了消除糖尿病用药对研究结果的影响,排除有2型糖尿病用药史志愿者。通过关联分析,研究者在发现队列发现6种与MRS相关的血清代谢物,并在另外一个独立队列有效重复(图1D)。其中,MRS与2-苯丙酸(2-phenylpropionate)、肉桂酸(hydrocinnamic acid)和吲哚-3-丙酸(indole-3-propionic acid)呈负相关,这些代谢物均与肠道微生物组代谢相关。脱氧胆酸(Deoxycholic acid)和脱氧胆酸甘氨酸偶联物(deoxycholic acid glycine conjugate)是结肠环境中微生物菌群中存在的酶作用产生的二级胆汁酸。最近的研究表明,肠道菌群的改变不仅会影响胆汁酸,还会影响胆汁酸受体信号(如FXR和TGR5)。FXR已被报道参与葡萄糖稳态、能量消耗和脂质代谢。这些结果为核心菌谱在宿主代谢中的潜在功能和机制提供了参考。
人群MRS与空腹血糖的前瞻性关系提示,核心菌谱与宿主血糖具有潜在的因果关系。为了进一步验证该结论,研究者根据MRS评分从发现队列随机选择9名参与者作为代表供体并分组,将三组供体粪菌分别移植到相应的3组无菌老鼠体内,并监测其未来2周的空腹血糖变化,另外1组无菌老鼠作为对照组(图2A)。
结果表明,4组间老鼠的基线空腹血糖无显著差异。后续2周监测期间,移植了高MRS宿主肠道菌群的老鼠, 其空腹血糖水平在显著高于低MRS组与无菌组。无菌对照组与低MRS组空腹血糖无显著差异。
为了探究可能调控核心菌谱的生活方式,研究者在发现队列,基于线性模型评估了基线肥胖相关的表型及生活方式与MRS的前瞻性关系。模型矫正了人口统计学因素,2型糖尿病用药史,并相互矫正了其他测试指标。纳入的肥胖相关的表型包括:BMI(=体重/身高的平方)、臀围、腰围、颈围,生活方式相关因素包括:运动、能量摄入、红肉、水果、蔬菜、酸奶、吸烟、饮酒。结果表明,基线BMI与MRS呈显著正相关,而臀围与饮茶呈显著负相关(图2A)。
肥胖是2型糖尿病最重要的危险因素。上述结论亦表明,BMI和臀围与MRS密切相关,研究者进一步假设肠道微生物组与2型糖尿病的关系可能受到肥胖状态的调节。为此,研究者基于线性模型探究了脂肪分布相关的45个因子变量与MRS的关系,模型矫正了个体人口统计学因素,经多重假设检验与独立队列重复验证,发现躯干与四肢脂肪比例在发现队列及验证队列均与MRS呈正相关(图2B)。更重要地,躯干与四肢脂肪比例与MRS交互影响2型糖尿病发病风险(图2C)。
综上所述,该研究整合可解释机器学习框架与大规模的人类队列研究,确定了影响2型糖尿病的稳健的核心菌谱。该核心菌谱可作为2型糖尿病的诊断、治疗靶点,或饮食及生活方式的干预靶点。
郑钜圣和陈裕明为文章的共同通讯作者,西湖大学博士生苟望龙、博士后蒋增良、中山大学凌楚雯、南方医科大学何彦为论文的共同第一作者。
参考文献
Gou W, Ling C, He Y, et al. Interpretable machine learning framework reveals robust gut microbiome features associated with type 2 diabetes[J]. Diabetes Care, 2021, 44(2): 358-366.
信息及图片来源:西湖大学官网及Diabetes Care官网