2020-09-15 3235其它数据库
2020年7月,由欧洲分子生物学实验室欧洲生物信息学研究所(EMBL-EBI)领导的国际合作研究团队在《Nature Biotechnology》发表了迄今为止最全面的人类肠道微生物组序列资源:统一的人类胃肠道基因组(UHGG)和人类胃肠道蛋白质(UHGP)目录,包括4,644个肠道微生物的204,938个非冗余基因组以及625,255,473个蛋白全长序列。
本文的共同一作,特伦托大学的首席研究员Nicola Segata表示:“这个庞大的目录是微生物组研究的里程碑,将成为科学家们开始研究并希望了解每种细菌在人类肠道生态系统中所扮演的角色的宝贵资源。”
从人类微生物组计划(HMP)到人类肠道宏基因组计划(MetaHIT),人类肠道微生物组数据资源在不断完善。其中,整合了HMP和MetaHIT项目的综合基因目录(IGC)已成功应用于不同临床背景下的微生物组关联研究,但是由于IGC包含的基因与它们的起源基因组没有直接的联系,缺乏建立遗传联系并在基因组基础上推断微生物完整功能途径的背景数据。而建立一个完整的微生物参考基因组和基因集合是准确描述肠道微生物生态系统分类和功能的重要步骤。
EMBL-EBI领导的国际合作研究团队从人类肠道微生物组数据中汇编和分析了204938个基因组和170602708个基因,生成了迄今为止最全面的人类肠道微生物组序列资源:UHGG和UHGP。
与IGC数据库相比,UHGP提高了115%的蛋白序列覆盖度。另外,该研究发现超过70%的UHGG物种属于未培养的物种,40%的UHGP缺乏功能注释。
种内基因组变异分析显示了大量的辅助基因和单核苷酸变异,其中许多是人类个体特有的。
UHGG组装数据已保存至ENA,数据编号:ERP116715.
UHGG/UHGP/SNV目录、UHGG目录的功能注释、泛基因组结果和定制Kraken 2/Bracken数据库均可以通过MGnify FTP站点获取:http://ftp.ebi.ac.uk/pub/databases/metagenomics/mgnify_genomes/.
本次研究的数据、UHGG目录的BIGSI搜索索引、每个物种集群生成的Mash距离树,还可通过MGnify网站交互访问:https://www.ebi.ac.uk/metagenomics/genomes.
参考文献
Almeida, A., Nayfach, S., Boland, M. et al. A unified catalog of 204,938 reference genomes from the human gut microbiome. Nat Biotechnol (2020). https://doi.org/10.1038/s41587-020-0603-3.
图片来源于nature官网和参考文献,如有侵权请联系删除。