/
/
/
BioProject数据下载说明

BioProject数据下载说明

Last modified: 2025-04-29 10:54:11


NCBI生物项目数据

FTP下载地址https://ftp.cngb.org/pub/ncbi/bioproject

文件说明

bioproject.xml.gz

NCBI提供的BioProject XML数据文件,包含生物项目的元数据信息,涵盖基因组测序、转录组分析、表观遗传学等多种研究类型。

数据来源https://ftp.ncbi.nlm.nih.gov/bioproject/bioproject.xml

文件结构:

  • <Package>:文件的根元素,包含多个 <Document> 元素
  • <Document>:代表一个BioProject记录
    • <Project>:项目的核心信息
      • <ProjectID>:项目的唯一标识符(如PRJNA123456)
      • <ProjectType>:项目类型(如Genome sequencing)
      • <Title>:项目标题
      • <Description>:项目描述
      • <Organism>:研究对象的生物分类信息
      • <Publication>:相关出版物信息
      • <ExternalLink>:外部资源链接(如GEO、SRA)

biosample_set.xml.gz

NCBI提供的BioSample XML数据文件,包含生物样本的元数据信息,涵盖基因组测序、转录组分析、表观遗传学等多种研究类型的样本。

数据来源https://ftp.ncbi.nlm.nih.gov/biosample/biosample_set.xml.gz

文件结构:

  • <BioSampleSet>:文件的根元素,包含多个 <BioSample> 元素
  • <BioSample>:代表一个生物样本记录
    • <Accession>:样本的唯一标识符(如SAMN12345678)
    • <Description>:样本描述
    • <Organism>:样本的生物分类信息
    • <Attributes>:样本属性
      • <Attribute>:单个属性(如tissue、age)
    • <Links>:相关资源链接
      • <Link>:单个链接(如SRA、GEO)

SRA_Accessions.tab.gz

NCBI提供的SRA(Sequence Read Archive)元数据文件,包含SRA记录的访问号及其相关信息。

数据来源https://ftp.ncbi.nlm.nih.gov/sra/reports/Metadata/SRA_Accessions.tab

文件格式:

制表符分隔的文本文件(.tab),主要列包括:

列序号 列名 描述 示例值
1 Accession SRA记录的唯一标识符(SRR/SRX/SRS/SRP前缀) SRR12345678
2 Submission 提交的父级访问号(通常以SRA/SUB前缀开头) SRA1234567
3 Status 记录状态:live(公开)、suppressed(隐藏)、killed(删除) live
4 Updated 最后更新日期(YYYY-MM-DD格式) 2023-05-15
5 Published 公开发布日期(YYYY-MM-DD格式) 2023-05-10
6 Received 数据接收日期(YYYY-MM-DD格式) 2023-05-01
7 Type 记录类型:RUN/EXPERIMENT/SAMPLE/STUDY RUN
8 Center 提交中心名称(如NCBI、EBI等) NIH
9 Visibility 数据可见性:public/private public
10 Alias 提交者自定义的别名(可能为空) Patient_1_RNA
11 Experiment 关联的实验访问号(SRX前缀) SRX1234567
12 Sample 关联的BioSample访问号(SAMN前缀) SAMN12345678
13 Study 关联的BioProject访问号(PRJNA前缀) PRJNA123456
14 Loaded 数据加载完成日期(YYYY-MM-DD格式) 2023-05-05
15 Spots 测序点的总数(RUN类型特有) 50000000
16 Bases 总碱基数(RUN类型特有) 10000000000
17 Md5sum 数据文件的MD5校验和(RUN类型特有) a1b2c3d4e5f6...
18 BioSample 同Sample列(冗余字段) SAMN12345678
19 BioProject 同Study列(冗余字段) PRJNA123456
20 ReplacedBy 若记录被替换,指向新访问号(否则为空) SRR98765432

注意事项

  1. 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库bioproject、biosample和sra。所有数据均通过NCBI官方提供的接口或下载渠道获取。
  2. 请按照NCBI的规定引用相关数据。
  3. 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
  4. 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
  5. 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/bioproject/README为准

联系方式

如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们: