2022-08-08 2068文献解读
纵向微生物组研究可以捕捉微生物组内的时间变化,以获得对微生物系统的机理认识。近日,《Briefings in Bioinformatics》发表综述文章,回顾了纵向微生物组研究的现有统计方法,以强调其优势和局限性。
一项成功的研究始于清晰、明确的科学研究目标。纵向微生物组研究的共同目标:1)研究感兴趣的群体(如病例与对照组、疾病或治疗组)之间的微生物丰度如何随时间变化,以及微生物丰度与其他因素(如临床结果、疾病或治疗)之间的关联如何随时间变化。在这种情况下,时间和患者或单个组之间差异都可能是有意义的。2)对具有类似时间丰度模式的微生物进行分组。这种分析往往要求我们首先对每种微生物的时间轨迹进行建模。3)构建一个微生物网络,了解各组微生物之间的时间关系。
纵向微生物组数据通常来自两种不同的情况:来自设计实验(如小鼠)[L1]和人类随访或队列研究[L2]。对于L1类纵向数据,时间点通常比L2研究紧密,每个受试者的时间点数量相同(或非常相似)。相比之下,L2类数据通常具有受试者时间点数量不均匀和时间点间隔不均匀的特点。此外,在L2研究中,一些外部因素(如饮食)也可能影响微生物组,但可能经常无法测量或不受控制,这使得建模更具挑战性。
L1和L2设计均使用扩增子或宏基因组测序来生成原始数据。由于微生物组数据的性质,这两种测序方法产生的数据具有许多分析挑战,这些数据稀疏、过度分散、高维、多线性、多变量和高度可变。
当前方法
Zero-inf lated beta regression ModelZIBR可以同时评估每个分类群随时间和组间的丰度变化。适用于相对丰度(比例)数据,并使用伯努利分布捕捉微生物的存在或不存在,以及使用贝塔分布捕捉非零丰度。ZIBR具有高度的可行性,可以评估分析目标1中说明的所有效应。其优点之一是它能够通过使用逻辑组件来解释数据的稀疏性。然而,ZIBR有几个局限性:该模型没有明确说明模型中的受试者内相关结构(即自回归相关结构);ZIBR无法处理给定主题在给定时间点丢失的数据等。
Negative binomial mixed modelNBMM可以检测微生物计数(无转换)与协变量(如治疗、表型、年龄、饮食习惯等)之间的关联,同时考虑受试者内部和之间微生物丰度的时间趋势。NBMM模型可以用不同的固定效应进行拟合,如时间效应、治疗效应以及时间和治疗之间的交互作用。因此,与ZIBR相似,NBMM也可以评估分析目标1中说明的所有效应。NBMM可以适应同一受试者观察结果之间不同的相关结构,而ZIBR则没有这种灵活性。然而该方法没有明确地处理零膨胀。
Block Bootstrap MethodBBM是纵向微生物组计数数据引导法的扩展,其旨在确定样本组之间的差异丰度,但不关注时间效应。因此,该方法只能识别组间差异表达的分类群。BBM是非参数的,不需要特定的数据分布。它可以处理对象内的依赖性,并解释不同的库大小,以解决数据的组成性质。作为限制因素,该方法计算量大,需要足够多的时间点(至少五个)来指定两个调整参数(初始区块大小、子采样的重复观察数)。稀疏性和可变性仍然存在问题,需要预先过滤,以去除由于时间变化(技术和生物来源)造成的不必要的噪音。BBM不考虑其他协变量,当所有受试者的观察次数相同时,其表现最佳。在解释方面,该方法评估了一个样本组的丰度是否高于另一个,但没有量化这种差异。
SplinectomeRSplinectomeR是一个R包,它使用加权局部多项式(Loess splines)来总结纵向研究中假设检验的数据。SplinectomeR中的方法易于解释,可以直接比较多个时间点的观察结果,而无需对这些时间点进行平均或汇总。它们还可以处理缺失或不平衡的数据。然而,这些方法可能会受到异常值的影响,特别是在稀疏数据集中,并且不考虑组成数据。
Zero-inf lated Gaussian mixed modelsZIGMM用于解释受试者内的相关性和微生物组数据的其他特性。与上述所有方法类似,ZIGMM也是单变量的。与其他两种零信息方法ZIBR和ZINBMM相比,ZIGMM在计算效率方面优于以前开发的各种方法。与ZIBR和NBMM类似,ZIGMM还可以评估时间效应、组效应和时间×组相互作用效应。ZIGMM的主要优点是能够模拟受试者内样本之间的时间依赖性效应和相关性。此外,该方法可以包括正态分布和零相关模型的各种固定效应和随机效应。该方法还可以解释样本之间不同的自回归相关结构。最后,该方法可以分析微生物组比例数据以及扩增子或宏基因组测序技术生成的计数数据。然而,ZGMM也遇到了控制假阳性率的拟合问题,特别是在分析复杂数据(包括宏基因组学)时。
Bayesian semi-parametric generalized linear model该方法使用具有均值约束的正则先验来避免可识别性问题,并在微生物变量、样本和时间点之间借用信息。由于数据的高维性和协变量之间的高度相关性,产生了稀疏估计。与其他方法相比,这种方法是多变量的。然而,需要更多的发展来灵活捕捉响应函数中的不同形状,纳入变量选择,并允许时间相关的协变量。由于数据稀疏性,必须谨慎处理后验计算,并且需要纳入先验信息以进行准确推断。
性能评估
研究团队模拟数据以评估不同丰度方法的性能:除ZIGMM外,基于计数数据的所有其他方法(NBMM、FZINBMM)在检测时间效应和群体效应方面表现良好。然而,ZIGMM计数模型在检测具有时间和组交互效应的变量方面优于所有方法。在基于相关数据的方法(例如ZIGMM、SplinectomeR)中,ZIBR在检测时间和组效应方面表现良好。
研究团队将所有方法应用于一项纵向研究,调查抗生素治疗后抗万古霉素肠球菌(VREfm)定植期间肠道微生物组的作用:除ZIBR和SplinectomeR外,由于方法的技术限制,所有其他方法在模型拟合过程中至少会出现一个错误;FZINBMM产生的显著分类群数量最多,这一结果可能是由于与初始阶段相比,抗生素和VREfm效应较大。
当前方法
1. 动态时间规整(DTW)距离一种基于动态时间规整(DTW)距离的聚类方法以识别具有相似时间模式的分类群。与基于欧氏距离的聚类方法相比,DTW考虑到了跨时间序列的失真,因此适用于识别异相的时间行为。
2. 围绕中心点分割和层次聚类一项研究中研究人员将这两类聚类算法应用于微生物组时间序列数据。围绕medoids的分区(PAM)是一种实现k-medoids聚类的流行算法,据此,数据被分配到k个聚类中(类似于k-means聚类)。在k-medoids聚类中,每个聚类由聚类中最中心的medoid代表。一个medoid是一个数据点,它使自己与集群中所有其他数据点之间的平均不相似度最小。由于PAM使用medoids而不是平均值,因此与k-means聚类相比,该方法对噪声和异常值的敏感性较低。Hclust是一种分层聚类算法,它采用自底向上的方法根据相似性对分类群进行分组。
3. 使用主成分分析和稀疏主成分分析进行聚类多变量降维技术主成分分析(PCA)和稀疏主成分分析(sPCA)被用来对具有类似时间模式的分类群进行聚类。当时间点的数量较少(即5-10个),并且预计数据在不同时间段遵循规律和类似的趋势时,这些方法最适合。
性能评估
研究团队模拟数据以评估聚类方法的性能:与其他聚类方法(即PCA、DTW、层次聚类)相比,k-medoid聚类的中值聚类精度最高。然而,正如预期的那样,随着噪声水平的增加,所有方法的聚类精度都会降低。k-medoid聚类、DTW和层次聚类都具有相似的中值聚类精度,但DTW在其精度上具有很高的可变性。
聚类方法分别应用于VREfm案例两组:初始阶段(对照组)和VRE阶段(治疗组)。所有四种方法都将与VREfm相关的分类群(即肠球菌科)划分为一个小类群,表明其与其他划分为较大类群的分类群不同。此外,治疗组中属于类杆菌科的两个分类群的丰度随着时间的推移而增加,并通过PCA和DTW聚类被分配到同一个聚类,表明这两种方法表现良好。
当前方法
1. Two-stage dynamic Bayesian NnetworkTS-DBN构建具有离散和连续变量的网络,其中在离散变量上指定条件概率分布,在连续变量上定义条件线性高斯密度函数。在样本量较小的情况下,纳入临床和人口统计学变量可能会导致过度拟合。目前,该方法仅限于两个时间点,对于稀有分类群可能表现不佳,因为网络连接显示出较低的置信度。
2. Granger causality based interaction networksweb应用程序“TIME”中的网络模型基于Granger因果关系,该因果关系评估给定个体两个分类群“A”和“B”之间的成对因果关系。除了成对Granger因果关系外,该方法还使用“Granger-Lasso因果关系”识别所有分类群之间的潜在因果关系。这些网络中的因果关系是统计预测,不能解释因果关系(相互作用可能是由于间接原因)。因此,应谨慎解释。结合其他功能数据,如代谢相关性,可以加强解释。这种方法的一个局限性是在构建交互网络时没有考虑临床或人口统计学变量。
3. Microbial time-series prior LassoMTPLasso可以推断微生物之间的相互作用。与基于Granger因果关系的交互网络类似,该方法也用于开发针对个体的网络。与之前的方法类似,MTPLasso在建模交互网络时也忽略了任何临床或人口统计学变量。
差异丰度和聚类方法的主要局限性是数据的组成性质。通过忽略组成性,这些方法可能会产生有偏见或误导性的结果。此外,大多数差异丰度方法是单变量的,因此忽略了微生物之间的相互关系,这可能导致虚假结果。在实践中,研究人员可能倾向于为所有分类群拟合特定方法,而不管其稀疏程度如何。因此,可以通过更大的灵活性来改进零相关模型,根据每个分类单元的稀疏程度包括或排除其零相关部分。
网络模型有望用于纵向微生物组数据分析,但仍处于起步阶段。这些模型推断微生物之间的相互作用,以了解微生物在疾病中的作用和影响,以及它们随时间的协同进化。另一种分析是调查微生物网络随时间的变化(例如由于抗生素干预)。网络模型未来有希望的应用是设计合成微生物组来验证数据驱动的生态网络。
由于篇幅有限,更多方法细节可参考文献原文~本文所有分析都是使用R进行的,可通过如下链接上的代码完全重现 :https://github.com/SarithaKodikara/Longitudinal_microbiome_data_analysis
参考文献
Kodikara S, Ellul S, Lê Cao K A. Statistical challenges in longitudinal microbiome data analysis[J]. Briefings in Bioinformatics, 2022, 23(4): bbac273.图片均来源于参考文献,如有侵权请联系删除。