Back to top
Taxonomy数据下载说明
Last modified: 2025-04-29 10:54:02
Taxonomy数据说明
FTP下载地址:https://ftp.cngb.org/pub/ncbi/taxonomy
Taxonomy是NCBI (美国国家生物技术信息中心) 提供的分类学数据目录,包含生物分类学信息的更新文件。这些文件用于描述生物物种的分类层次(如界、门、纲、目、科、属、种)及其相关信息。
数据来源: https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump/
文件说明
压缩文件
new_taxdump.zip
:适用于支持 ZIP 格式的工具,如 pkunzip、unzip 和 WinZip。new_taxdump.tar.Z
:适用于 UNIX 类环境,需要使用uncompress
和tar
工具解压。new_taxdump.tar.gz
:适用于 UNIX 类环境,需要使用gunzip
和tar
工具解压。
MD5 校验文件
new_taxdump.zip.md5
new_taxdump.tar.Z.md5
new_taxdump.tar.gz.md5
这些文件包含对应压缩文件的 MD5 校验和,可用于验证下载文件的完整性。
文件解压与解析
解压示例
unzip new_taxdump.zip
解压文件说明
nodes.dmp
每行代表一个分类节点,字段以 | 分隔:
- tax_id:分类节点的唯一标识符(TaxID)。
- parent_tax_id:父节点的TaxID。
- rank:分类等级(如species、genus、family等)。
- embl_code:EMBL代码(通常为空)。
- division_id:分类所属的领域(如细菌、病毒、真核生物等)。
- inherited_div_flag:是否继承父节点的领域。
- genetic_code_id:遗传密码ID。
- inherited_GC_flag:是否继承父节点的遗传密码。
- mitochondrial_genetic_code_id:线粒体遗传密码ID。
- inherited_MGC_flag:是否继承父节点的线粒体遗传密码。
- GenBank_hidden_flag:是否在GenBank中隐藏。
- hidden_subtree_root_flag:是否隐藏子树。
- comments:注释信息。
names.dmp
每行代表一个分类节点的名称,字段以 | 分隔:
- tax_id:分类节点的TaxID。
- name_txt:分类节点的名称。
- unique_name:唯一名称(通常与 name_txt 相同)。
- name_class:名称类别(如scientific name、synonym、common name等)。
merged.dmp
每行代表一个已合并的分类节点,字段以 | 分隔:
- old_tax_id:旧的TaxID。
- new_tax_id:新的TaxID。
delnodes.dmp
每行代表一个已删除的分类节点,字段为TaxID。
citations.dmp
每行代表一个分类节点的引用信息,字段以 | 分隔:
- tax_id:分类节点的TaxID。
- citation:引用信息。
文件用途
- 构建分类树:使用 nodes.dmp 和 names.dmp 可以构建生物分类树。
- 更新分类信息:使用 merged.dmp 和 delnodes.dmp 可以更新分类节点的TaxID。
- 获取分类名称:使用 names.dmp 可以获取分类节点的科学名称、同义词和常用名称。
注意事项
- 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库taxonomy。所有数据均通过NCBI官方提供的接口或下载渠道获取。
- 请按照NCBI的规定引用相关数据。
- 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
- 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
- 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump/taxdump_readme.txt为准。
联系方式
如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们:
- 联系邮箱:CNGBdb@cngb.org
- 联系电话:0755-3394 5586