/
/
/
Taxonomy数据下载说明

Taxonomy数据下载说明

Last modified: 2025-04-29 10:54:02


Taxonomy数据说明

FTP下载地址https://ftp.cngb.org/pub/ncbi/taxonomy

Taxonomy是NCBI (美国国家生物技术信息中心) 提供的分类学数据目录,包含生物分类学信息的更新文件。这些文件用于描述生物物种的分类层次(如界、门、纲、目、科、属、种)及其相关信息。

数据来源: https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump/

文件说明

压缩文件

  • new_taxdump.zip:适用于支持 ZIP 格式的工具,如 pkunzip、unzip 和 WinZip。
  • new_taxdump.tar.Z:适用于 UNIX 类环境,需要使用 uncompresstar 工具解压。
  • new_taxdump.tar.gz:适用于 UNIX 类环境,需要使用 gunziptar 工具解压。

MD5 校验文件

  • new_taxdump.zip.md5
  • new_taxdump.tar.Z.md5
  • new_taxdump.tar.gz.md5

这些文件包含对应压缩文件的 MD5 校验和,可用于验证下载文件的完整性。

文件解压与解析

解压示例

unzip new_taxdump.zip

解压文件说明

nodes.dmp

每行代表一个分类节点,字段以 | 分隔:

  • tax_id:分类节点的唯一标识符(TaxID)。
  • parent_tax_id:父节点的TaxID。
  • rank:分类等级(如species、genus、family等)。
  • embl_code:EMBL代码(通常为空)。
  • division_id:分类所属的领域(如细菌、病毒、真核生物等)。
  • inherited_div_flag:是否继承父节点的领域。
  • genetic_code_id:遗传密码ID。
  • inherited_GC_flag:是否继承父节点的遗传密码。
  • mitochondrial_genetic_code_id:线粒体遗传密码ID。
  • inherited_MGC_flag:是否继承父节点的线粒体遗传密码。
  • GenBank_hidden_flag:是否在GenBank中隐藏。
  • hidden_subtree_root_flag:是否隐藏子树。
  • comments:注释信息。

names.dmp

每行代表一个分类节点的名称,字段以 | 分隔:

  • tax_id:分类节点的TaxID。
  • name_txt:分类节点的名称。
  • unique_name:唯一名称(通常与 name_txt 相同)。
  • name_class:名称类别(如scientific name、synonym、common name等)。

merged.dmp

每行代表一个已合并的分类节点,字段以 | 分隔:

  • old_tax_id:旧的TaxID。
  • new_tax_id:新的TaxID。

delnodes.dmp

每行代表一个已删除的分类节点,字段为TaxID。

citations.dmp

每行代表一个分类节点的引用信息,字段以 | 分隔:

  • tax_id:分类节点的TaxID。
  • citation:引用信息。

文件用途

  • 构建分类树:使用 nodes.dmp 和 names.dmp 可以构建生物分类树。
  • 更新分类信息:使用 merged.dmp 和 delnodes.dmp 可以更新分类节点的TaxID。
  • 获取分类名称:使用 names.dmp 可以获取分类节点的科学名称、同义词和常用名称。

注意事项

  1. 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库taxonomy。所有数据均通过NCBI官方提供的接口或下载渠道获取。
  2. 请按照NCBI的规定引用相关数据。
  3. 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
  4. 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
  5. 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump/taxdump_readme.txt为准。

联系方式

如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们: