2020-06-30 4100文献解读
高通量测序技术和分析方法的发展为微生物组研究提供了新见解。然而,这些新的发展让研究人员(特别是没有生物信息背景的研究人员)在选择合适的分析软件/脚本上面临挑战。
来自中国科学院遗传与发育生物学研究所、中国科学院大学、中国中医科学院等多家科研机构组成的科研团队在《Protein&Cell》发表了微生物组数据扩增子和宏基因组分析的实用指南。
微生物组研究的第一步:根据样本类型和需要解决的科学问题,选择合适的研究方法。不同方法的结合是可取的,因为多组学提供了对微生物组分类和功能的全面信息。以细菌DNA样本为例,扩增子测序可以提供微生物群分类信息;而宏基因组测序不仅可以提高物种分类信息的分辨率,还能提供潜在功能信息。
原始数据处理:USEARCH/QIIME
代表性序列选择:UPARSE算法、DADA2算法、QIIME 2、USEARCH
预测潜在的功能:PICRUSt/R包Tax4Fun
特别说明:以上流程只适用于Illumina平台生成的数据,其他平台本文没有做讨论。
与扩增子相比,宏基因组可以直接提供功能基因图谱,并能达到更高的分类注释分辨率。然而,由于数据量大,大多数软件只能用于Linux系统,需要大量的计算资源来进行分析。为了便于软件安装和维护,建议使用包管理器Conda和BioConda来部署宏基因组分析流程。
原始数据处理:KneadData、Bowtie 2+Trimmomaticclean reads
转换为分类表/功能表:MetaPhlAn2、Kraken 2(基于readsbase);MEGAHIT/metaSPAdes、metaGeneMark/Prokka(基于组装)
功能分析:HUMAnN2/MEGAN
另外,建议使用诸如MetaWRAP或DAStool的分箱流程,基于其集成的多个分箱软件包,可获得精确的分箱结果和更少污染/更完整的基因组,还为评估和可视化提供实用脚本。
α多样性评估样本内的多样性,包括丰富度和均匀度。可以使用几个软件包计算α多样性,包括QIIME、R包vegan和USEARCH。
β多样性评估样本间微生物群的差异,通常与主坐标分析(PCoA)、非度量多维标度(NMDS)或约束主坐标分析(CPCoA)等降维方法相结合。这些分析可以在R-vegan包中实现,并在散点图中可视化。
分类组成描述了微生物群落的组成,通常使用堆积条形图来可视化。为了简单起见,微生物群通常显示门或属水平。
差异比较可确定组间丰度显著不同的特征(如物种或基因),结果可以使用火山图、曼哈顿图或扩展误差条形图进行可视化。一般使用Welch’s t-test, MannWhitney U test, Kruskal-Wallis test, 或 ALDEx2, edgeR , STAMP ,LEfSe 等工具分析。
相关性分析用于揭示分类单元与样本元数据之间的关联。例如,它用于识别分类群与环境因素(如pH值、地理位置和临床指数)之间的关联。
网络分析从整体的角度探究特征的共现性。相关网络的特性可能代表共同发生的类群或功能途径之间的潜在相互作用。可以使用R中的cor.test()函数或适用于诸如SparCC包等成分数据的更强大的工具来计算相关系数和有效的P值。还可以使用R库igraph、Cytoscape或Gephi对网络进行可视化和分析。
在微生物研究中,机器学习用于分类、β多样性分析、特定特征的组合分析。常用的机器学习方法包括随机森林、Adaboost和深度学习,通过选择生物标志物或回归分析对组进行分类,以显示生物标志物丰度的实验条件依赖性变化。
Treemap广泛应用于系统发育树的构建、微生物组的分类注释和可视化。代表性的扩增子序列易于用于系统发育分析。我们建议使用IQ-TREE通过大数据快速构建高可信度的系统树,并使用iTOL在线可视化。可以使用R脚本table2itol(https://github.com/mgoeker/table2itol)轻松生成树的注释文件。此外,我们建议使用GraPhlAn在一个有吸引力的分支图中可视化系统发育树或层次分类法。
可重复性对于微生物组分析至关重要,建议研究人员共享测序数据,元数据,分析代码。其中测序数据和元数据可保存至相关数据库(例如CNGBdb等);使用R Markdown或Python Notebooks之类的工具来跟踪所有分析代码和参数,并将它们存储在版本控制管理系统中(例如GitHub)。
👉 获取文献全文
参考文献
Liu Y X, Qin Y, Chen T, et al. A practical guide to amplicon and metagenomic analysis of microbiome data[J]. Protein & cell, 2020.
图片来源:均来源于参考文献,如有侵权请联系删除。