Back to top
BioProject数据下载说明
2025-04-27 15:36:57
2025-04-29 10:54:11
2,315
NCBI生物项目数据
FTP下载地址:https://ftp.cngb.org/pub/ncbi/bioproject
文件说明
bioproject.xml.gz
NCBI提供的BioProject XML数据文件,包含生物项目的元数据信息,涵盖基因组测序、转录组分析、表观遗传学等多种研究类型。
数据来源:https://ftp.ncbi.nlm.nih.gov/bioproject/bioproject.xml
文件结构:
<Package>:文件的根元素,包含多个<Document>元素<Document>:代表一个BioProject记录<Project>:项目的核心信息<ProjectID>:项目的唯一标识符(如PRJNA123456)<ProjectType>:项目类型(如Genome sequencing)<Title>:项目标题<Description>:项目描述<Organism>:研究对象的生物分类信息<Publication>:相关出版物信息<ExternalLink>:外部资源链接(如GEO、SRA)
biosample_set.xml.gz
NCBI提供的BioSample XML数据文件,包含生物样本的元数据信息,涵盖基因组测序、转录组分析、表观遗传学等多种研究类型的样本。
数据来源:https://ftp.ncbi.nlm.nih.gov/biosample/biosample_set.xml.gz
文件结构:
<BioSampleSet>:文件的根元素,包含多个<BioSample>元素<BioSample>:代表一个生物样本记录<Accession>:样本的唯一标识符(如SAMN12345678)<Description>:样本描述<Organism>:样本的生物分类信息<Attributes>:样本属性<Attribute>:单个属性(如tissue、age)
<Links>:相关资源链接<Link>:单个链接(如SRA、GEO)
SRA_Accessions.tab.gz
NCBI提供的SRA(Sequence Read Archive)元数据文件,包含SRA记录的访问号及其相关信息。
数据来源:https://ftp.ncbi.nlm.nih.gov/sra/reports/Metadata/SRA_Accessions.tab
文件格式:
制表符分隔的文本文件(.tab),主要列包括:
| 列序号 | 列名 | 描述 | 示例值 |
|---|---|---|---|
| 1 | Accession | SRA记录的唯一标识符(SRR/SRX/SRS/SRP前缀) | SRR12345678 |
| 2 | Submission | 提交的父级访问号(通常以SRA/SUB前缀开头) | SRA1234567 |
| 3 | Status | 记录状态:live(公开)、suppressed(隐藏)、killed(删除) | live |
| 4 | Updated | 最后更新日期(YYYY-MM-DD格式) | 2023-05-15 |
| 5 | Published | 公开发布日期(YYYY-MM-DD格式) | 2023-05-10 |
| 6 | Received | 数据接收日期(YYYY-MM-DD格式) | 2023-05-01 |
| 7 | Type | 记录类型:RUN/EXPERIMENT/SAMPLE/STUDY | RUN |
| 8 | Center | 提交中心名称(如NCBI、EBI等) | NIH |
| 9 | Visibility | 数据可见性:public/private | public |
| 10 | Alias | 提交者自定义的别名(可能为空) | Patient_1_RNA |
| 11 | Experiment | 关联的实验访问号(SRX前缀) | SRX1234567 |
| 12 | Sample | 关联的BioSample访问号(SAMN前缀) | SAMN12345678 |
| 13 | Study | 关联的BioProject访问号(PRJNA前缀) | PRJNA123456 |
| 14 | Loaded | 数据加载完成日期(YYYY-MM-DD格式) | 2023-05-05 |
| 15 | Spots | 测序点的总数(RUN类型特有) | 50000000 |
| 16 | Bases | 总碱基数(RUN类型特有) | 10000000000 |
| 17 | Md5sum | 数据文件的MD5校验和(RUN类型特有) | a1b2c3d4e5f6... |
| 18 | BioSample | 同Sample列(冗余字段) | SAMN12345678 |
| 19 | BioProject | 同Study列(冗余字段) | PRJNA123456 |
| 20 | ReplacedBy | 若记录被替换,指向新访问号(否则为空) | SRR98765432 |
注意事项
- 我们同步的数据全部来自NCBI(美国国家生物技术信息中心)的公开数据库bioproject、biosample和sra。所有数据均通过NCBI官方提供的接口或下载渠道获取。
- 请按照NCBI的规定引用相关数据。
- 平台会定期更新NCBI数据,如希望更新数据,可以联系我们。
- 用户使用NCBI的数据,需严格遵守NCBI的相关政策:https://www.ncbi.nlm.nih.gov/home/about/policies/。若发现内容存在侵权行为,请及时与我们联系,我们会删除相关内容。
- 具体的说明以NCBI的官方文档https://ftp.ncbi.nlm.nih.gov/bioproject/README为准
联系方式
如果有其他问题(如新增数据库需求或数据使用疑问),欢迎随时联系我们:
- 联系邮箱:CNGBdb@cngb.org
- 联系电话:0755-3394 5586