Back to top
GenBank数据下载说明
Last modified: 2025-04-30 09:58:43
GenBank数据同步说明
FTP同步地址:https://ftp.cngb.org/pub/ncbi/genbank/
目录结构说明
主要数据文件
- gbpri*.seq.gz:主要GenBank序列数据(优先级1-9),按生物分类分组
- gbctg*.seq.gz:基因组contig序列数据
- gbhtg*.seq.gz:高通量基因组序列(HTG)数据
- gbbct*.seq.gz:细菌序列数据
- gbvrl*.seq.gz:病毒序列数据
- gbpln*.seq.gz:植物序列数据
- gbrod*.seq.gz:啮齿动物序列数据
- gbmam*.seq.gz:其他哺乳动物序列数据
- gbest*.seq.gz:EST(表达序列标签)数据
- gbgss*.seq.gz:GSS(基因组调查序列)数据
- gbsts*.seq.gz:STS(序列标签位点)数据
特殊项目数据
- wgs/:全基因组鸟枪法(WGS)项目数据
- tsa/:转录组鸟枪法组装(TSA)项目数据
- tls/:靶向位点研究(TLS)项目数据
- quality_scores/:序列质量评分数据
- daily-nc/:每日增量更新文件
- livelists/:每周更新的序列访问号列表
- release.notes/:历史版本发布说明
索引与报告文件
- gbrel.txt:版本发布说明
- README.genbank:数据库说明文档
- gbnew.txt.gz:新增序列列表
- gbchg.txt.gz:变更序列列表
- gbdel.txt.gz:删除序列列表
- stats.wgs.XXXX:WGS项目统计信息
- stats.tsa.XXXX:TSA项目统计信息
- stats.tls.XXXX:TLS项目统计信息
文件格式说明
GenBank文件采用标准格式,主要字段包括:
- LOCUS:序列标识符,包含序列名称、长度、分子类型等
- DEFINITION:序列的简要描述
- ACCESSION:序列的唯一访问号
- VERSION:序列版本号
- KEYWORDS:与序列相关的关键词
- SOURCE:序列来源的生物体
- ORGANISM:生物体的科学分类
- REFERENCE:相关文献引用
- FEATURES:序列特征表,包含编码区、启动子等注释信息
- ORIGIN:序列数据起始标记
- //:序列记录结束标记
注意事项
- 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库GenBank。所有数据均通过NCBI官方提供的接口或下载渠道获取。
- 请按照NCBI的规定引用相关数据。
- 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
- 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
- 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/genbank/README.genbank为准
联系方式
如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们:
- 联系邮箱:CNGBdb@cngb.org
- 联系电话:0755-3394 5586