Genomes数据下载说明 - Download

Home

Download

Genomes数据下载说明

Last modified: 2025-04-29 10:53:58

NCBI基因组数据下载

FTP下载地址：https://ftp.cngb.org/pub/ncbi/genomes

目录结构说明

GCA目录（GenBank数据）

数据来源：https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/

包含GenBank数据库中的基因组组装数据
按照组装访问编号的前缀GCA组织
子目录结构：
- 按组装编号前三位数字分组（如000/、001/、002/等）
- 每个子目录包含以完整组装编号命名的目录（如GCA_000001405/）
示例下载：GenBank人参考基因组GRCh38：下载链接

GCF目录（RefSeq数据）

数据来源：https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/

包含RefSeq数据库中的基因组组装数据
按照组装访问编号的前缀GCF组织
子目录结构：
- 按组装编号前三位数字分组（如000/、001/、002/等）
- 每个子目录包含以完整组装编号命名的目录（如GCF_000001405/）
示例下载：RefSeq人参考基因组GRCh38：下载链接

元数据文件说明

assembly_summary_genbank.txt.gz

数据来源：https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt

包含GenBank数据库中当前基因组组装的元数据，用于获取基因组组装的详细信息，如：

组装版本
生物项目编号
样本编号
物种分类信息
下载路径等

assembly_summary_refseq.txt.gz

数据来源：https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt

包含RefSeq数据库中当前基因组组装的元数据，字段与GenBank版本相同。

元数据文件字段说明

assembly_summary_genbank.txt.gz和assembly_summary_refseq.txt.gz包含39个制表符分隔的列，主要字段包括：
1、assembly_accession：组装版本的唯一标识符。
2、bioproject：生成序列的 BioProject 的访问编号。
3、biosample：获得序列的 BioSample 的访问编号。
4、wgs_master：WGS 项目的 GenBank 核苷酸访问编号和版本。
5、refseq_category：该组装是否为 RefSeq 项目中的参考基因组。
6、taxid：该基因组组装所来自的生物的 NCBI 分类 ID。
7、species_taxid：该基因组组装所来自的物种的 NCBI 分类 ID。
8、organism_name：该基因组组装所来自的生物的科学名称。
9、infraspecific_name：该基因组组装所来自的生物的菌株、品种、栽培品种或生态型。
10、isolate：该基因组组装所来自的个体分离株。
11、version_status：基因组组装版本的发布状态。
12、assembly_level：基因组组装中任何对象的最高组装级别。
13、release_type：基因组组装版本是主要发布、次要发布还是补丁发布。
14、genome_rep：组装是否旨在代表整个基因组或仅部分基因组。
15、seq_rel_date：基因组组装的序列在国际核酸序列数据库协作组织（INSDC）数据库中发布的日期。
16、asm_name：提交者为基因组组装提供的名称。
17、asm_submitter：提交联盟或组织列表中的第一个位置。
18、gbrs_paired_asm：与给定 RefSeq 组装配对的 GenBank 组装的访问编号和版本。
19、paired_asm_comp：配对的 GenBank 和 RefSeq 组装是否相同。
20、ftp_path：从 NCBI 基因组 FTP 站点下载该基因组组装数据的目录路径。
21、CNGBdb_ftp_path：从 CNGBdb 基因组 FTP 站点下载该基因组组装数据的目录路径。
22、excluded_from_refseq：该组装被排除在 RefSeq 项目之外的原因。
23、relation_to_type_material：基因组组装的序列与模式材料的关系。
24、asm_not_live_date：组装从最新状态转变为被替换或被抑制的日期。
25、assembly_type：组装类型（单倍体、二倍体等）。
26、group：常用的生物群组。
27、genome_size：主组装中所有顶级序列的总长度。
28、genome_size_ungapped：忽略间隙的主组装中所有顶级序列的总长度。
29、gc_percent：DNA 中的鸟嘌呤或胞嘧啶的百分比。
30、replicon_count：主组装中的染色体、细胞器基因组和质粒的总数。
31、scaffold_count：主组装中的支架数。
32、contig_count：主组装中的重叠群数。
33、annotation_provider：提供注释的组织。
34、annotation_name：注释的名称。
35、annotation_date：基因组组装的注释日期。
36、total_gene_count：注释在基因组组装上的基因总数。
37、protein_coding_gene_count：基因组组装上的蛋白质编码基因数。
38、non_coding_gene_count：基因组组装上的非编码基因数。
39、pubmed_id：与基因组组装相关的 PubMed ID。
使用示例：要获取RefSeq拟南芥的组装数据，可在assembly_summary_refseq.txt.gz中搜索"Arabidopsis thaliana"，第21列的下载地址即为所需数据。

注意事项

我们同步的数据全部来自NCBI（美国国家生物技术信息中心）的公开数据库GenBank和RefSeq。所有数据均通过NCBI官方提供的接口或下载渠道获取。
请按照NCBI的规定引用相关数据。
平台会定期更新NCBI数据，如希望更新数据，可以联系我们。
用户使用NCBI的数据，需严格遵守NCBI的相关政策：https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为，请及时与我们联系，我们会删除相关内容。
具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/genomes/README.txt为准

联系方式

如果有其他问题（如新增数据库需求或数据使用疑问），欢迎随时联系我们：

联系邮箱：CNGBdb@cngb.org
联系电话：0755-3394 5586