组装数据信息采集标准
适用于组装好的原核生物和真核生物基因组(全基因组测序或完整基因组测序),包括质粒、细胞器、宏基因组等组装序列。
标准介绍
本标准规范了组装数据的采集要求,确保数据的质量和可追溯性
项目、样本说明
分模块独立采集项目、样本的信息,确保数据来源可追溯,样本信息完整准确。
组装的方法
记录基因组组装所采用的软件工具、算法版本及参数设置,保证组装过程可复现。
组装的类别
明确组装数据的类型,包括全基因组组装、线粒体 / 叶绿体基因组组装、宏基因组分箱、转录本组装等。
组装数据质量指标
| 指标名称 | 说明 |
|---|---|
| Assembly Annotation | 是否有注释文件 |
| Genome Size (bp) | 组装总长度,反映基因组完整性 |
| Total ungapped length (bp) | 总无缺口长度,评估组装结果的真实性和完整性 |
| Number of chromosomes | 染色体数量 |
| Number of scaffolds | Scaffold 数量 |
| Scaffold N50 (bp) | Scaffold 连续性 |
| Scaffold L50 | Scaffold 连续性 |
| Number of contigs | Contig 数量 |
| Contig N50 (bp) | Contig 连续性 |
| Contig L50 | Contig 连续性 |
| GC Content (%) | 检查 AT / GC 偏差,避免数据偏好性 |
| Genome coverage (x) | 基因组覆盖率 |
| BUSCO Score (%) | 基因组完整性评估(Completeness) |
| Gap Rate(%) | 组装间隙占比 |
| Genes | 若有注释,基因数 |
| Protein-coding | 若有注释,蛋白编码数 |
| repeat annotation | 是否有重复序列注释 |
| structural annotation | 是否有结构注释 |
| functional annotation | 是否有功能注释 |
| BUSCO lineage | BUSCO 谱系 |
| BUSCO version | BUSCO 版本 |
采集模板下载
下载组装数据信息采集模板,按照规范填写组装数据信息。