2020-09-14 4774文献解读
宏基因组技术的出现改变了微生物研究的方式,其减少了对微生物培养的依赖,通过无偏倚的方式实现更快速的物种检测和新物种的发现。由于宏基因组是从复杂样本而不是单一物种中获得基因组信息,因此该领域的主要挑战之一是开发鉴定这些样本中所有物种的分析工具。
目前已经开发了许多用于宏基因组数据分类的工具,来自美国的研究人员在《Cell》发表关于宏基因组物种分类工具的综述:回顾了当前的宏基因组分析方法,并使用模拟和实验数据集评估了常用宏基因组物种分类工具的性能,并展望了宏基因组数据分析的未来。
研究团队将一系列丰度阈值的查准率、查全率以及总体丰度概况作为主要基准指标,针对常用宏基因组物种分类工具进行了性能测评。
研究团队使用查准率-查全率曲线(precision-recall curve)下面积输出分数来评估查准率、查全率。当使用默认数据库时,大多数工具在AUPR方面表现良好,鉴定到“种”的得分超过0.8。其中,MetaPhlAn2和mOTUs2,由于基于标记的数据库有限,性能较低;Centrifuge默认数据库被显著地有损压缩,导致查全率较低。当使用RefSeq CG数据库时,分类工具的AUPR得分略低于它们自带的默认数据库,这种差异在基于蛋白质的方法中最为明显。
接下来研究团队计算了所有物种的分类丰度和真实丰度之间的L2距离,以评估工具丰度分布的准确性。使用长k-mers (>30 nt)的基于DNA的分类工具,如Kraken和taxMaps是得分最高的方法,与真实值之间的典型平均L2距离低于0.1。基于标记和蛋白质的分类工具都有较高的L2距离。Bracken在“种”水平上提供了更准确的丰度。与默认数据库相比,使用RefSeq CG数据库时大多数工具的丰度距离没有太大变化,不过Centrifuge是个例外,不使用其默认数据库Centrifuge的性能显著改善。将所有工具的L2距离做聚类以评估它们的相似度。MegaBLAST和prophyle稍微落在紧密的主聚类之外;基于标记的方法MetaPhlAn2和mOTUs2的丰度估算值与基于DNA和蛋白质的分类工具有很大的不同。
分类工具在“种”水平上分类的reads数比例差异很大。
假阳性分类是基因组测序数据分析的主要挑战,可能受实验(如PCR的重复、实验过程引入污染)和分析因素的影响,尤其是在考虑人类临床样本时,在参考数据库中包括已知或可疑的宿主基因组是减少假阳性分类的第一个重要步骤。
为了评估分类工具的假阳性分类率,研究团队将模拟数据的分类工具输出与实际体外样本的测序数据进行比较。对于模拟DNA,在查全20个真实物种后,一些工具中出现了额外的假阳性物种,丰度低于0.5%,而大多数分类工具称之为假阳性物种,丰度低于0.01%。根据方法的不同,不同物种的假阳性数量从数十(Bracken和MetaPhlAn2)到数千(Centrifuge, CLARK, Kaiju, MMseqs2, PathSeq)不等。与模拟DNA相比,测序的DNA在较低的丰度下表现出相似的数量和假阳性增长,且测序DNA和RNA数据集的丰度估计更不准确。
宏基因组学领域正在接近其发展轨迹上的一个关键里程碑。近年来已经开发了一系列综合性能良好的分析工具,使用户可以根据自己的特定问题、计算环境、目标分类群和其他偏好选择数据的分析方法,这使得宏基因组测序分析比以往任何时候都更容易进行。然而,许多分类工具仍然需要解决大量低丰度假阳性出现的问题。除此之外,还需要在许多方面取得更大的突破,包括控制污染和误差的实验来源,以及处理参考数据库数据的指数增长,从而使宏基因组分类向微生物检测和特征描述转变。
参考文献
Simon H Y, Siddle K J, Park D J, et al. Benchmarking metagenomics tools for taxonomic classification[J]. Cell, 2019, 178(4): 779-794.
图片来源:均来源于参考文献,如有侵权请联系删除。