Back to top
BioProject数据下载说明
Last modified: 2025-04-29 10:54:11
NCBI生物项目数据
FTP下载地址:https://ftp.cngb.org/pub/ncbi/bioproject
文件说明
bioproject.xml.gz
NCBI提供的BioProject XML数据文件,包含生物项目的元数据信息,涵盖基因组测序、转录组分析、表观遗传学等多种研究类型。
数据来源:https://ftp.ncbi.nlm.nih.gov/bioproject/bioproject.xml
文件结构:
<Package>
:文件的根元素,包含多个<Document>
元素<Document>
:代表一个BioProject记录<Project>
:项目的核心信息<ProjectID>
:项目的唯一标识符(如PRJNA123456)<ProjectType>
:项目类型(如Genome sequencing)<Title>
:项目标题<Description>
:项目描述<Organism>
:研究对象的生物分类信息<Publication>
:相关出版物信息<ExternalLink>
:外部资源链接(如GEO、SRA)
biosample_set.xml.gz
NCBI提供的BioSample XML数据文件,包含生物样本的元数据信息,涵盖基因组测序、转录组分析、表观遗传学等多种研究类型的样本。
数据来源:https://ftp.ncbi.nlm.nih.gov/biosample/biosample_set.xml.gz
文件结构:
<BioSampleSet>
:文件的根元素,包含多个<BioSample>
元素<BioSample>
:代表一个生物样本记录<Accession>
:样本的唯一标识符(如SAMN12345678)<Description>
:样本描述<Organism>
:样本的生物分类信息<Attributes>
:样本属性<Attribute>
:单个属性(如tissue、age)
<Links>
:相关资源链接<Link>
:单个链接(如SRA、GEO)
SRA_Accessions.tab.gz
NCBI提供的SRA(Sequence Read Archive)元数据文件,包含SRA记录的访问号及其相关信息。
数据来源:https://ftp.ncbi.nlm.nih.gov/sra/reports/Metadata/SRA_Accessions.tab
文件格式:
制表符分隔的文本文件(.tab),主要列包括:
列序号 | 列名 | 描述 | 示例值 |
---|---|---|---|
1 | Accession | SRA记录的唯一标识符(SRR/SRX/SRS/SRP前缀) | SRR12345678 |
2 | Submission | 提交的父级访问号(通常以SRA/SUB前缀开头) | SRA1234567 |
3 | Status | 记录状态:live(公开)、suppressed(隐藏)、killed(删除) | live |
4 | Updated | 最后更新日期(YYYY-MM-DD格式) | 2023-05-15 |
5 | Published | 公开发布日期(YYYY-MM-DD格式) | 2023-05-10 |
6 | Received | 数据接收日期(YYYY-MM-DD格式) | 2023-05-01 |
7 | Type | 记录类型:RUN/EXPERIMENT/SAMPLE/STUDY | RUN |
8 | Center | 提交中心名称(如NCBI、EBI等) | NIH |
9 | Visibility | 数据可见性:public/private | public |
10 | Alias | 提交者自定义的别名(可能为空) | Patient_1_RNA |
11 | Experiment | 关联的实验访问号(SRX前缀) | SRX1234567 |
12 | Sample | 关联的BioSample访问号(SAMN前缀) | SAMN12345678 |
13 | Study | 关联的BioProject访问号(PRJNA前缀) | PRJNA123456 |
14 | Loaded | 数据加载完成日期(YYYY-MM-DD格式) | 2023-05-05 |
15 | Spots | 测序点的总数(RUN类型特有) | 50000000 |
16 | Bases | 总碱基数(RUN类型特有) | 10000000000 |
17 | Md5sum | 数据文件的MD5校验和(RUN类型特有) | a1b2c3d4e5f6... |
18 | BioSample | 同Sample列(冗余字段) | SAMN12345678 |
19 | BioProject | 同Study列(冗余字段) | PRJNA123456 |
20 | ReplacedBy | 若记录被替换,指向新访问号(否则为空) | SRR98765432 |
注意事项
- 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库bioproject、biosample和sra。所有数据均通过NCBI官方提供的接口或下载渠道获取。
- 请按照NCBI的规定引用相关数据。
- 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
- 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
- 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/bioproject/README为准
联系方式
如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们:
- 联系邮箱:CNGBdb@cngb.org
- 联系电话:0755-3394 5586