组装数据信息采集标准
适用于组装好的原核生物和真核生物基因组(全基因组测序或完整基因组测序),包括质粒、细胞器、宏基因组等组装序列。
标准介绍
本标准规范了组装数据的采集要求,确保数据的质量和可追溯性
项目、样本说明
分模块独立采集项目、样本的信息,确保数据来源可追溯,样本信息完整准确。
组装的方法
记录基因组组装所采用的软件工具、算法版本及参数设置,保证组装过程可复现。
组装的类别
明确组装数据的类型,包括全基因组组装、线粒体 / 叶绿体基因组组装、宏基因组分箱、转录本组装等。
组装数据质量指标
指标名称说明
Assembly Annotation是否有注释文件
Genome Size (bp)组装总长度,反映基因组完整性
Total ungapped length (bp)总无缺口长度,评估组装结果的真实性和完整性
Number of chromosomes染色体数量
Number of scaffoldsScaffold 数量
Scaffold N50 (bp)Scaffold 连续性
Scaffold L50Scaffold 连续性
Number of contigsContig 数量
Contig N50 (bp)Contig 连续性
Contig L50Contig 连续性
GC Content (%)检查 AT / GC 偏差,避免数据偏好性
Genome coverage (x)基因组覆盖率
BUSCO Score (%)基因组完整性评估(Completeness)
Gap Rate(%)组装间隙占比
Genes若有注释,基因数
Protein-coding若有注释,蛋白编码数
repeat annotation是否有重复序列注释
structural annotation是否有结构注释
functional annotation是否有功能注释
BUSCO lineageBUSCO 谱系
BUSCO versionBUSCO 版本
采集模板下载
下载组装数据信息采集模板,按照规范填写组装数据信息。