/
/
/
GenBank数据下载说明

GenBank数据下载说明

Last modified: 2025-04-30 09:58:43


GenBank数据同步说明

FTP同步地址https://ftp.cngb.org/pub/ncbi/genbank/

目录结构说明

主要数据文件

  • gbpri*.seq.gz:主要GenBank序列数据(优先级1-9),按生物分类分组
  • gbctg*.seq.gz:基因组contig序列数据
  • gbhtg*.seq.gz:高通量基因组序列(HTG)数据
  • gbbct*.seq.gz:细菌序列数据
  • gbvrl*.seq.gz:病毒序列数据
  • gbpln*.seq.gz:植物序列数据
  • gbrod*.seq.gz:啮齿动物序列数据
  • gbmam*.seq.gz:其他哺乳动物序列数据
  • gbest*.seq.gz:EST(表达序列标签)数据
  • gbgss*.seq.gz:GSS(基因组调查序列)数据
  • gbsts*.seq.gz:STS(序列标签位点)数据

特殊项目数据

  • wgs/:全基因组鸟枪法(WGS)项目数据
  • tsa/:转录组鸟枪法组装(TSA)项目数据
  • tls/:靶向位点研究(TLS)项目数据
  • quality_scores/:序列质量评分数据
  • daily-nc/:每日增量更新文件
  • livelists/:每周更新的序列访问号列表
  • release.notes/:历史版本发布说明

索引与报告文件

  • gbrel.txt:版本发布说明
  • README.genbank:数据库说明文档
  • gbnew.txt.gz:新增序列列表
  • gbchg.txt.gz:变更序列列表
  • gbdel.txt.gz:删除序列列表
  • stats.wgs.XXXX:WGS项目统计信息
  • stats.tsa.XXXX:TSA项目统计信息
  • stats.tls.XXXX:TLS项目统计信息

文件格式说明

GenBank文件采用标准格式,主要字段包括:

  • LOCUS:序列标识符,包含序列名称、长度、分子类型等
  • DEFINITION:序列的简要描述
  • ACCESSION:序列的唯一访问号
  • VERSION:序列版本号
  • KEYWORDS:与序列相关的关键词
  • SOURCE:序列来源的生物体
  • ORGANISM:生物体的科学分类
  • REFERENCE:相关文献引用
  • FEATURES:序列特征表,包含编码区、启动子等注释信息
  • ORIGIN:序列数据起始标记
  • //:序列记录结束标记

注意事项

  1. 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库GenBank。所有数据均通过NCBI官方提供的接口或下载渠道获取。
  2. 请按照NCBI的规定引用相关数据。
  3. 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
  4. 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
  5. 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/genbank/README.genbank为准

联系方式

如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们: