Genomes数据下载说明
Last modified: 2025-04-29 10:53:58
NCBI基因组数据下载
FTP下载地址:https://ftp.cngb.org/pub/ncbi/genomes
目录结构说明
GCA目录(GenBank数据)
数据来源:https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/
- 包含GenBank数据库中的基因组组装数据
- 按照组装访问编号的前缀GCA组织
- 子目录结构:
- 按组装编号前三位数字分组(如000/、001/、002/等)
- 每个子目录包含以完整组装编号命名的目录(如GCA_000001405/)
- 示例下载:GenBank人参考基因组GRCh38: 下载链接
GCF目录(RefSeq数据)
数据来源:https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/
- 包含RefSeq数据库中的基因组组装数据
- 按照组装访问编号的前缀GCF组织
- 子目录结构:
- 按组装编号前三位数字分组(如000/、001/、002/等)
- 每个子目录包含以完整组装编号命名的目录(如GCF_000001405/)
- 示例下载:RefSeq人参考基因组GRCh38: 下载链接
元数据文件说明
assembly_summary_genbank.txt.gz
数据来源:https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt
包含GenBank数据库中当前基因组组装的元数据,用于获取基因组组装的详细信息,如:
- 组装版本
- 生物项目编号
- 样本编号
- 物种分类信息
- 下载路径等
assembly_summary_refseq.txt.gz
数据来源:https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt
包含RefSeq数据库中当前基因组组装的元数据,字段与GenBank版本相同。
元数据文件字段说明
assembly_summary_genbank.txt.gz和assembly_summary_refseq.txt.gz包含39个制表符分隔的列,主要字段包括:
1、assembly_accession:组装版本的唯一标识符。
2、bioproject:生成序列的 BioProject 的访问编号。
3、biosample:获得序列的 BioSample 的访问编号。
4、wgs_master:WGS 项目的 GenBank 核苷酸访问编号和版本。
5、refseq_category:该组装是否为 RefSeq 项目中的参考基因组。
6、taxid:该基因组组装所来自的生物的 NCBI 分类 ID。
7、species_taxid:该基因组组装所来自的物种的 NCBI 分类 ID。
8、organism_name:该基因组组装所来自的生物的科学名称。
9、infraspecific_name:该基因组组装所来自的生物的菌株、品种、栽培品种或生态型。
10、isolate:该基因组组装所来自的个体分离株。
11、version_status:基因组组装版本的发布状态。
12、assembly_level:基因组组装中任何对象的最高组装级别。
13、release_type:基因组组装版本是主要发布、次要发布还是补丁发布。
14、genome_rep:组装是否旨在代表整个基因组或仅部分基因组。
15、seq_rel_date:基因组组装的序列在国际核酸序列数据库协作组织(INSDC)数据库中发布的日期。
16、asm_name:提交者为基因组组装提供的名称。
17、asm_submitter:提交联盟或组织列表中的第一个位置。
18、gbrs_paired_asm:与给定 RefSeq 组装配对的 GenBank 组装的访问编号和版本。
19、paired_asm_comp:配对的 GenBank 和 RefSeq 组装是否相同。
20、ftp_path:从 NCBI 基因组 FTP 站点下载该基因组组装数据的目录路径。
21、CNGBdb_ftp_path:从 CNGBdb 基因组 FTP 站点下载该基因组组装数据的目录路径。
22、excluded_from_refseq:该组装被排除在 RefSeq 项目之外的原因。
23、relation_to_type_material:基因组组装的序列与模式材料的关系。
24、asm_not_live_date:组装从最新状态转变为被替换或被抑制的日期。
25、assembly_type:组装类型(单倍体、二倍体等)。
26、group:常用的生物群组。
27、genome_size:主组装中所有顶级序列的总长度。
28、genome_size_ungapped:忽略间隙的主组装中所有顶级序列的总长度。
29、gc_percent:DNA 中的鸟嘌呤或胞嘧啶的百分比。
30、replicon_count:主组装中的染色体、细胞器基因组和质粒的总数。
31、scaffold_count:主组装中的支架数。
32、contig_count:主组装中的重叠群数。
33、annotation_provider:提供注释的组织。
34、annotation_name:注释的名称。
35、annotation_date:基因组组装的注释日期。
36、total_gene_count:注释在基因组组装上的基因总数。
37、protein_coding_gene_count:基因组组装上的蛋白质编码基因数。
38、non_coding_gene_count:基因组组装上的非编码基因数。
39、pubmed_id:与基因组组装相关的 PubMed ID。
使用示例:要获取RefSeq拟南芥的组装数据,可在assembly_summary_refseq.txt.gz中搜索"Arabidopsis thaliana",第21列的下载地址即为所需数据。
注意事项
- 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库GenBank和RefSeq。所有数据均通过NCBI官方提供的接口或下载渠道获取。
- 请按照NCBI的规定引用相关数据。
- 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
- 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
- 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/genomes/README.txt为准
联系方式
如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们:
- 联系邮箱:CNGBdb@cngb.org
- 联系电话:0755-3394 5586