CNSA 手册

2025-01-08 17:00:40
2025-03-12 09:11:03
2,317

关于 CNSA

国家基因库序列归档系统(CNSA)是一种方便快捷的组学数据归档系统,可在线提交测序数据及其相关分析结果。目前CNSA可接收的数据类型有:项目、样本、实验、测序、组装、变异、代谢、单细胞、病毒序列、序列。其数据递交服务可作为文献出版流程的补充,支持早期数据的共享。遵循通用的组学数据标准,CNSA致力于建立一个综合性且经过审编的数据库,用于组学数据的存储、管理和共享,促进数据的再利用和生命科学的发展。


简易操作手册

简易操作手册下载

CNSA 手册(简易中文版)

注册/登录

请在注册页面使用邮箱或手机号码进行注册/登录并在提交数据前填写递交者信息。

进入提交入口

CNSA首页点击“提交”或点击首页导航栏的“提交入口”可以进入提交入口页

提交项目

  1. 进入提交流程
    提交入口页点击“项目”进入提交流程。
  2. 提交项目信息
    选择数据管理形式->填写基本信息->填写详细信息->概览->提交

注意事项

  1. 项目提交的第一步需要选择数据管理形式。如果选择“公开”或者“受控”,公开日期可参考文章发表的日期,建议晚于文章发表的日期。
  2. 文章的相关信息也可在文章发表后补充。
  3. 项目提交成功后,可在“我的提交-项目”获取CNSA分配的项目编号(以CNP为前缀)

提交审查材料

项目提交成功后,则您已完成数据递交申请的提交;如在合规审核中需要补充相关材料,数据管理员(datasubs@cngb.org)将提示您递交相关审查材料,请注意datasubs@cngb.org的邮件。请注意,材料审查时间一般为3个工作日。材料审查通过后,数据管理员将进行项目审核。

提交样本

  1. 进入提交流程
    提交入口页点击“项目”进入提交流程。
  2. 提交样本信息
    如果您一次只提交一个样本,建议选择单个提交方式。如果您一次提交多个样本,建议选择批量提交方式。
    1. 单个提交:选择“提交单个样本”->选择样本类型->填写样本属性->字段通过校验->概览->提交
    2. 批量提交:选择“提交批量样本”->选择样本类型->下载模板->上传填写后的模板->模板通过校验->提交

注意事项

  1. 样本类型请选择正确,提交后不能再自行修改。
  2. 样本名不能重复。
  3. 填写批量模板文件时,请先查看相关说明和字段批注,如果有些必填字段信息缺失,可填写'not collected', 'not applicable' 或 'missing'。物种的分类编号或科学名称不清楚的,可以进入单个提交流程搜索查看,确保填写的信息正确。
  4. Collection date支持4种数据格式,YYYY, YYYY-MM, YYYY-MM-DD, YYYY-YYYY。
  5. 上传的文件行数不能超过2000,如果超过2000,请分多个流程提交。
  6. 样本提交成功后,可以在“我的提交-样本”获取CNSA分配的样本编号(以CNS为前缀)。

提交实验/测序

  1. 进入提交流程
    提交入口页点击“实验/测序”进入提交流程。
  2. 提交数据文件和元数据
    如果您一次只提交一个实验/测序,建议选择单个提交方式。如果您一次提交多个实验/测序,建议选择批量提交方式。
    1. 单个提交:选择提交类型(提交单个实验/测序)->填写基本信息->填写元数据->元数据通过校验->上传数据文件->数据文件通过校验->概览->提交
    2. 批量提交:选择提交类型(提交批量实验/测序)->上传数据文件->下载元数据模板->上传填写后的元数据模板->元数据通过校验->数据文件通过校验->提交

注意事项

  1. 建议先上传数据文件,所有用户都可通过FTP上传数据也可以邮寄硬盘。
    1. 数据上传至FTP的个人目录后,才算数据上传完毕。
    2. FTP的服务器、用户名和密码可在提交流程或“我的服务”查看。每个用户都有一个唯一的FTP账户。
  2. 填写批量模板文件时,请先查看相关说明和字段批注。一行代表一个测序(run),如果一个样本关联多个数据文件,请分多行提交,确保实验部分的信息一致且文库名唯一,每个数据文件的文件名称和MD5值唯一。
  3. 元数据文件行数不能超过2000,如果超过2000,请分多个流程提交。
  4. 实验/测序提交成功后,可以在“我的提交-实验/测序”获取CNSA分配的编号(实验:以CNX为前缀;测序:以CNR为前缀)

提交组装

  1. 进入提交流程
    提交入口页点击“组装”进入提交流程。
  2. 提交数据文件和元数据
    如果您一次只提交一个组装,建议选择单个提交方式。如果您一次提交多个组装,建议选择批量提交方式。
    1. 单个提交:选择“提交单个组装”->填写基本信息->填写元数据->元数据通过校验->上传数据文件->数据文件通过校验->概览->提交
    2. 批量提交:选择“提交批量组装”->上传数据文件->下载元数据模板->上传填写后的元数据模板->元数据通过校验->数据文件通过校验->提交

注意事项

  1. 建议先上传数据文件(目前只支持FASTA格式),所有用户都可通过FTP上传数据也可以邮寄硬盘。
    1. 数据上传至FTP的个人目录后,才算数据上传完毕。
    2. FTP的服务器、用户名和密码可在提交流程或“我的服务”查看。每个用户都有一个唯一的FTP账户。
  2. 填写批量模板文件时,请先查看相关说明和字段批注。一行代表一个组装,确保每个组装的组装名称唯一,每个数据文件的文件名称和MD5值唯一。
  3. 元数据文件行数不能超过2000,如果超过2000,请分多个流程提交。
  4. 组装提交成功后,可以在“我的提交-组装”获取CNSA分配的组装编号(以CNA为前缀)。

提交变异

  1. 进入提交流程
    提交入口页点击“变异”进入提交流程。
  2. 提交数据文件和元数据
    1. 提交SNP:选择变异类型(SNP)->上传数据文件至ftp->下载元数据模板->上传填 写后的元数据模板->元数据通过校验->数据文件通过校验->提交
    2. 提交SV:选择变异类型(SV)->上传数据文件至ftp(可选)->下载模板->上传填写后的模板->通过校验->数据文件通过校验(如果提交)->提交
    3. 提交CAHV:选择变异类型(CAHV)->下载模板->上传填写后的模板->通过校验->提交

注意事项

  1. 如果选择的变异类型为SNP,建议先上传数据文件(目前只支持VCF格式),所有用户都可通过FTP上传数据也可以邮寄硬盘。
    1. 数据上传至FTP的个人目录后,才算数据上传完毕。
    2. FTP的服务器、用户名和密码可在提交流程或“我的服务”查看。每个用户都有一个唯一的FTP账户。
  2. 填写模板文件时,请先查看说明和字段批注。如果需要上传VCF文件,确保每个数据文件的文件名称和MD5值唯一。
  3. 数据审核成功后,可以在“我的提交-变异”获取CNSA分配的变异编号(以varc为前缀)。

提交代谢

  1. 进入提交流程
    提交入口页点击“代谢”进入提交流程。
  2. 提交数据文件和元数据
    上传数据文件->下载描述信息模板->上传填写后的描述信息模板->增加试验->下载所创建试验的模板->上传填写后的试验信息模板->元数据通过校验->数据文件通过校验->提交

注意事项

  1. 建议先上传数据文件,所有用户都可通过FTP上传数据也可以邮寄硬盘。
    1. 数据上传至FTP的个人目录后,才算数据上传完毕。
    2. FTP的服务器、用户名和密码可在提交流程或“我的服务”查看。每个用户都有一个唯一的FTP账户。
  2. 描述信息必填,至少创建一个试验。前一个试验上传完才能新增试验。
  3. 提交的元数据的每个表的行数不能超过2000,如果超过2000,请分多个流程提交。
  4. 填写模板文件时,请先查看说明和字段批注。确保每个数据文件的文件名称和MD5值唯一。
  5. 数据审核成功后,可以在“我的提交-代谢”获取CNSA分配的代谢编号(以METM为前缀)。

提交单细胞

  1. 进入提交流程
    提交入口页点击“单细胞”进入提交流程。
  2. 选择关联的项目编号并填写细胞数量。
  3. 提交数据文件和元数据
    上传数据文件->下载元数据模板->上传填写后的元数据模板->元数据通过校验->数据文件通过校验->提交

注意事项

  1. 建议先上传数据文件,所有用户都可通过FTP上传数据也可以邮寄硬盘。
    1. 数据上传至FTP的个人目录后,才算数据上传完毕。
    2. FTP的服务器、用户名和密码可在提交流程或“我的服务”查看。每个用户都有一个唯一的FTP账户。
  2. 基因表达文件必需,其他文件类型可选。如果您的基因表达文件、元数据文件和聚类文件需要分组,请在文件名中添加分组名称。
  3. 提交的元数据的每个表的行数不能超过2000,如果超过2000,请分多个流程提交。
  4. 填写模板文件时,请先查看说明和字段批注。确保每个数据文件的文件名称和MD5值唯一。
  5. 数据审核成功后,可以在“我的提交-单细胞”获取CNSA分配的单细胞编号(以CSE为前缀)。

提交病毒序列

  1. 进入提交流程
    提交入口页点击“病毒序列”进入提交流程。
  2. 选择该次提交的数据的公开日期。
  3. 提交数据文件和元数据
    上传数据文件至ftp->下载元数据模板->上传填写后的元数据模板->元数据通过校验->数据文件通过校验->提交

注意事项

  1. 建议先上传数据文件(目前只支持FASTA格式),所有用户都可通过FTP上传数据也可以邮寄硬盘。
    1. 数据上传至FTP的个人目录后,才算数据上传完毕。
    2. FTP的服务器、用户名和密码可在提交流程或“我的服务”查看。每个用户都有一个唯一的FTP账户。
  2. 提交的元数据的每个表的行数不能超过2000,如果超过2000,请分多个流程提交。
  3. 填写模板文件时,请先查看说明和字段批注。确保每个数据文件的文件名称和MD5值唯一。
  4. 数据审核成功后,可以在“我的提交-病毒序列”获取CNSA分配的病毒序列编号(以N_为前缀)。

提交序列

  1. 进入提交流程
    提交入口页点击“序列”进入提交流程。
  2. 提交数据文件和元数据
    上传数据文件->下载文件列表模板->上传填写后的文件列表模板->文件列表通过校验->数据文件通过校验->提交

注意事项

  1. 建议先上传数据文件(目前只支持GBFF格式),所有用户都可通过FTP上传数据也可以邮寄硬盘。
    1. 数据上传至FTP的个人目录后,才算数据上传完毕。
    2. FTP的服务器、用户名和密码可在提交流程或“我的服务”查看。每个用户都有一个唯一的FTP账户。
  2. 提交的列表文件的行数不能超过2000,如果超过2000,请分多个流程提交。
  3. 填写模板文件时,请先查看说明和字段批注。确保每个数据文件的文件名称和MD5值唯一。
  4. 数据审核成功后,可以在“我的提交-序列”获取CNSA分配的病毒序列编号(以N_为前缀)。

备忘

  1. 数据公开
    公开日期可在项目提交流程中的“数据管理”进行设置,只能选择今天或今天后两年内的日期。提交的数据通过审编人员的审核且到达用户设置的公开日期时,数据才会公开。若即将达到数据的释放日期,系统将提前15天发送提醒邮件。
  2. 修改和删除
    在“我的提交”页面,点击状态列的“铅笔图标” 可以进行修改,若状态列没有“铅笔图标” ,请发邮件至datasubs@cngb.org申请并在邮件中注明提交编号或数据编号和修改原因。
    1. 修改公开日期
      如果项目的状态为“未完成”,可到“我的提交”,点击项目状态列的“铅笔图标” 进入流程修改。
      如果项目的状态为“处理中”或“已审核”,可以点击公开日期列的日期或“铅笔图标” 修改公开日期。
      如果项目的状态为“已公开”或“已受控”,公开日期不可自行修改。如需修改,请发送邮件至datasubs@cngb.org申请,并注明项目编号和修改原因。
    2. 删除提交
      若流程状态为“未完成”,可点击“垃圾桶图标”删除该提交。如果为其他状态,请发邮件至datasubs@cngb.org申请并在邮件中注明提交编号和删除原因。
  3. 数据关联
    只有在实验/测序或组装提交后,样本的信息才会触发审核;只有在实验/测序或组装审核且在数据公开后,才可以根据项目编号检索到项目下所关联的全部信息,否则,项目和样本的信息只能分别检索到,不会发生关联。
  4. MD5校验
    数据文件校验过程中,点击“校验”,可能有以下四种状态:
    1. 未上传:即数据文件未上传或上传中。如果您已上传数据文件,仍显示“未上传”状态,稍后点击“校验”。
    2. 计算中:即数据文件已上传,但系统还未计算或正在计算该文件的MD5值,稍后点击“校验”。
    3. MD5值不匹配:即系统计算的MD5值和您填写的MD5值不一致。如果数据文件只上传了一部分且处于校验中,系统计算的MD5值会与您填写的不一致,稍后点击“校验”即可。如果经长时间(比如半小时)的多次点击"校验",状态仍显示“MD5值不匹配”,请您重新计算并填写数据文件的MD5。如果仍显示“MD5值不匹配”,请联系datasubs@cngb.org,并在邮件中注明该文件名称。
    4. 校验完成:即数据文件已上传且通过校验。
  5. 查看编号和提交的元数据
    在“我的提交”页面,可直接查看单个提交的编号,还可在状态列下载批量提交的属性和编号文件,也可以点击已经完成的提交编号查看详细信息。
  6. 联系我们
    有任何问题可以联系管理员datasubs@cngb.org或者0755-36307296。

元数据

元数据是描述信息资源或数据对象的数据。

目前,CNSA的元数据包括11个数据对象:递交者、项目、样本、实验、测序、组装、变异、代谢、单细胞、病毒序列、序列。下面是每种数据对象的介绍和所需字段(带*的字段必填)。

递交者

递交者将项目、样本、实验、测序、组装和变异等数据提交至CNSA。一个递交者可进行多种数据类型的提交,也可以更新和修改数据,设置数据管理形式等。

字段 描述
*名 递交者的名
中间名 递交者的中间名
*姓 递交者的姓氏
*主要邮箱 首要邮箱地址
备选邮箱 备选邮箱地址
*单位/机构名称 所在组织/单位的全称
组织/单位网址 组织/单位的网站链接
*部门 递交者所在部门
电话 递交者的电话
传真 递交者的传真
*街道 递交者所居住的街道名
*城市 递交者所在城市名
省/州 递交者所在省/州的名称
*国家/区 递交者所在国家/区的名称
*邮编 邮政编码

项目

一个项目是一个研究的总体描述,通常包含多个样本和数据集。

一个项目可定义一组相关数据。一组相关数据的定义,“项目”非常灵活,并且支持使用不同参数定义项目。例如,可以为下面各项建立项目记录:

  • 基因组测序和组装
  • 宏基因组
  • 转录组测序和表达
  • 靶向位点测序
  • 遗传或辐射杂交图谱
  • 表观遗传学
  • 表型或基因型
  • 变异检测

项目代表以某种方式在逻辑上相关或者作为检索时感兴趣的一组独特的数据集。一个项目可以根据所产生的不同的数据类型进行识别。

数据管理形式

CNSA的数据管理形式有三种:公开、受控、私有,数据递交者可以在提交项目时选择一种数据管理形式。

  • 公开:公开数据指数据管理形式为“公开”的数据,即项目关联的元数据和数据文件都公开。公开数据面向全球开放访问,接受用户的访问和下载。您需要设置公开日期,且项目关联的所有元数据和数据文件都在该日期公开。
  • 受控:受控数据指数据管理形式为“受控”的数据,即项目关联的元数据公开、数据文件受控。受控数据接受用户的访问和下载申请。您需要设置元数据公开日期,且项目关联的所有元数据都在该日期公开。
  • 私有:私有数据指数据管理形式为“私有”的数据,即项目关联的元数据和数据文件都受控。私有数据不可访问,不接受任何访问或下载申请。

基本信息

*项目标题

描述项目的简短名称,用于公开展示,例如一个短语或短句。

项目名称

项目的简短名称。

*公开描述

项目研究目标和相关领域的一段话描述。

*相关领域

项目主要关联的领域。

相关领域 描述
Agricultural 农业  
Environmental 环境  
Evolution 进化  
Industrial 工业 可能包括生物修复,生物燃料和其他有大规模生产的研究领域
Medical 医学  
Model organism 模式生物  
Other 其他 在“相关领域描述”中定义未指明的主要相关类别

*相关领域描述

相关领域选择其他的时候,需要描述具体的相关领域。

功能注释

项目是否包含功能性注释,如果是,需要创建一个唯一的基因座标签前缀。

*基因座标签前缀

基因座标签的前缀。基因座标签是系统地应用于基因组中每个基因的标识符。项目的所有部分(例如多个染色体或质粒等)应使用相同的基因座标签前缀。

基因座标签前缀只与有功能性基因组注释的项目关联,必须遵循以下格式,多个前缀可以用英文逗号分隔。

格式要求:

  1. 只能包含字母和数字字符,并且长度必须至少为3个字符。
  2. 所有字母都大写,并且应以字母开头,但可以在字符串的第2个位置或稍后位置使用数字。 (例如A1C)。
  3. 前缀中不应有符号,例如-_ *。

关联外链

与该项目相关的网站。

字段 描述
URL 与该项目相关的网站链接
链接描述 展示项目关联的网站的名称

相关项目

与该项目相关的网站。

字段 描述
项目编号 相关项目的编号
项目描述 相关项目的描述

基金资助

项目的资金来源。

字段 描述
基金编号 支持研究的项目的基金编号
基金标题 支持研究项目的基金标题
机构简称 支持研究的机构简称
机构 支持研究的机构

联盟

如果该研究是某联盟的一部分,请提供相关的联盟信息。

字段 描述
联盟名称 如果该项目是某联盟的一部分,请提供相关的联盟名称
盟网址 如果这个联盟有网站,请提供链接

数据来源

如果数据提供者(数据提交者)是提交组织或联盟以外的人,则写明数据提供者。

字段 描述
数据提供者 数据的提供者
数据提供者链接 如果数据提供者有网站,请提供网址

详细信息

项目类型

*项目数据类型

说明主要研究目标的标签(可多选)。

项目数据类型 描述
Genome sequencing and assembly 基因组测序和组装 全部或部分基因组测序项目 (有或无基因组组装)
Raw sequence reads 原始测序数据 提交下机原始测序数据的项目
Genome sequencing 基因组测序 基因组测序项目
Assembly 组装 基因组组装项目
Clone ends 克隆末端 克隆末端测序项目
Epigenomics 表观遗传学 DNA 甲基化、组蛋白修饰、染色质可及性数据集
Exome 外显子组 外显子组测序项目
Map 图谱 无序列数据的图谱数据项目,例如遗传图谱、辐射杂交图谱、细胞遗传图谱、光学图谱等。
Metagenome 宏基因组 宏基因组测序项目,指环境样品的序列分析
Metagenomic assembly 宏基因组组装 宏基因组组装项目
Phenotype or Genotype 表型或基因型 与表型或基因型相关的项目
Proteome 蛋白质组 包括质谱分析的大规模蛋白质组学实验
Random survey 随机抽样 从采集的样本中随机抽样的测序项目,不涉及材料的全面采样
Targeted loci cultured 培养的靶向位点 来自培养样本的靶向位点测序项目
Targeted loci environmental 环境的靶向位点 来自环境样本(未培养)靶向位点测序项目
Targeted Locus (Loci) 靶向位点 对特异性位点进行测序的项目,例如16S rRNA 测序
Transcriptome or Gene expression 转录组或基因表达 大规模RNA测序或表达分析,包括编码DNA、表达序列标签、转录组和芯片测序
Variation 变异 项目的主要目标是鉴定不同人群的大或小的序列变异
Other 其他 其他项目数据类型,需要用户描述

*项目数据类型描述

当项目数据类型选择“其他”时,需要填写具体的项目数据类型。

*样本范围

用于研究的生物样本的范围和纯度。

当研究的目的是比较同一物种的多个个体或菌株,例如,Variation或 Genome sequencing and assembly的项目,需选择Multiisolate;当检测不同的物种时,需选择Multispecies;如果目的是单个基因组或转录组组装,即使DNA或RNA不仅仅来源于单个个体,需选择Monoisolate。

样本范围 描述
Monoisolate 单种群 单一动物,培养的细胞系,近交群体(或者当从混合样本产生单一基因组组群时可能是异质群体;不推荐此项)
Multiisolate 多种群 多个个体,一个种群(一个物种的代表)。不是多个基因组被注释时,用于变异或其他序列的比较项目。当多于一个基因组将被注释时,分成单独的单种群项目
Multispecies 多物种 代表多个物种的样本
Environment 环境 环境样本,多用于宏基因组研究
Synthetic 合成物 由机器合成的样本

* 样本范围描述

当样本范围选择其他的时候,需要填写具体的样本范围。

文献信息

 

字段 描述
PubMed编号 PubMed编号将用于补充公开信息
数字对象标识符 如果Pubmed 编号不可用,请提供数字对象标识符
*文献标题 文献的标题
*杂志名称 杂志的名称
*年 文献出版年份
*卷 期刊的卷号
*期 期刊的期号
*起始页码 文献的起始页码
*终止页码 文献的终止页码
*作者 作者的姓名
*单位 作者所在的单位

样本

描述实验的材料信息,每个提交到CNSA的样本需要有一个独立的属性。

基本信息

提交类型

提交类型 描述
提交批量样本 用户需要上传一个描述样本和样本属性的文件进行样本的批量提交
提交单个样本 用户需要手动通过在线方式提交单个的样本和样本属性信息

样本类型

在准备提交时,请参考下方属性列表和样本示例并填写相关字段。选择最适合您的样本的类型。

属性列表

样本类型 描述
Clinical or host-associated pathogen 临床或宿主相关病原体  
Environmental, food or other pathogen 环境、食物或其他病原体  
Combined pathogen 合并病原体 包括临床和环境病原体的批量提交
Microbial sample 微生物样本 当不适用于MIxS标准的病原体或病毒时,可用于细菌或其他单细胞微生物的样本
Model organism or animal sample 模式生物或动物样本 用于来自常见的实验室模式生物(例如小鼠、大鼠、果蝇、蠕虫、鱼、青蛙或包括动物园和农场的大型哺乳动物)的多细胞样品或细胞系
Metagenome or environmental sample 宏基因组或环境样本 当不适用于MIxS标准的选项时,可用于宏基因组和环境样本
Invertebrate sample 无脊椎动物样本 用于任何无脊椎动物样本。
Human sample 人体样本 仅用于没有隐私问题的人类样品或细胞系。对于从人类中分离的样品,使用病原体、微生物或合适的MIxS选项
Plant sample 植物样本 用于任何植物样品或细胞系
Virus sample 病毒样本 用于所有与疾病不直接相关的病毒样本
GSC MIxS air GSC MIxS空气  
GSC MIxS built environment GSC MIxS环境  
GSC MIxS host associated GSC MIxS宿主相关  
GSC MIxS human associated GSC MIxS人体相关  
GSC MIxS human gut GSC MIxS人体肠道  
GSC MIxS human oral GSC MIxS人体口腔  
GSC MIxS human skin GSC MIxS人体皮肤  
GSC MIxS human vaginal GSC MIxS人体阴道  
GCS MIxS microbial mat biolfilm GCS MIxS微生物垫生物膜  
GSC MIxS miscellaneous natural or artificial environment GSC MIxS各种天然或人造环境  
GSC MIxS plant associated GSC MIxS植物相关  
GSC MIxS sediment GSC MIxS沉积物  
GSC MIxS soil GSC MIxS土壤  
GSC MIxS waste water sludge GSC MIxS污水污泥  
GSC MIxS water GSC MIxS水  
Beta-lactamase β-内酰胺酶 用于具有抗生素抗性数据的β-内酰胺酶基因转化子

样本属性

样本属性是一个样本记录的重要组成部分。属性定义了正在研究的样本材料,可以包括样本特征,例如细胞类型、收集地点以及疾病状态等表型信息。

样本属性可以被赋予结构化的名称:属性对,例如组织:肝脏样本提交采用的第一个目标字典是由基因组标准联盟开发的用于标准化基因组、宏基因组和靶向位点序列描述的MIxS最小信息清单。

实验

描述样本的建库、测序仪器、测序方法等实验信息,一个实验通常关联一个项目和一个样本。

基本信息

提交类型

提交类型 描述
提交批量实验/测序 用户需要上传一个描述多个实验和测序的文件
提交单个实验/测序 用户填写表单提交单个实验和测序的信息

*项目编号

实验关联的项目编号。

*样本编号

实验使用的样本编号。

元数据

实验信息复用

复用已经提交的实验信息,填充接下来需要填写的单元格,方便用户快速填写并提交信息。

*数据文件类型

测序数据的文件类型。

数据文件类型 描述
bam 合并比对和测序数据的二进制SAM格式文件
cram 使用参考基因组对SAM重新编码
sff 454标准流程格式文件
fastq fastq文件
PacBio_HDF5 PacBio HDF5格式文件
Oxford_Nanopore Oxford Nanopore原始数据包含fast5碱基检出文件

实验基本信息

*平台

测序平台和测序仪型号。

平台 测序仪
_LS454 454 GS
454 GS 20
454 GS FLX
454 GS FLX+
454 GS FLX Titanium
454 GS Junior
ILLUMINA HiSeq X Five
HiSeq X Ten
Illumina Genome Analyzer
Illumina Genome Analyzer II
Illumina Genome Analyzer IIx
Illumina HiScanSQ
Illumina HiSeq 1000
Illumina HiSeq 1500
Illumina HiSeq 2000
Illumina HiSeq 2500
Illumina HiSeq 3000
Illumina HiSeq 4000
Illumina HiSeq X
Illumina MiniSeq
Illumina MiSeq
Illumina NovaSeq 6000
Illumina NovaSeq X
Illumina NovaSeq X Plus
Illumina iSeq 100
NextSeq 1000
NextSeq 2000
NextSeq 500
NextSeq 550
HELICOS Helicos HeliScope
ABI_SOLID AB 5500 Genetic Analyzer
AB 5500xl Genetic Analyzer
AB 5500x-Wl Genetic Analyzer
AB 5500xl-W Genetic Analysis System
AB SOLiD 3 Plus System
AB SOLiD 4 System
AB SOLiD 4hq System
AB SOLiD PI System
AB SOLiD System
AB SOLiD System 2.0
AB SOLiD System 3.0
COMPLETE_GENOMICS Complete Genomics
PACBIO_SMRT PacBio RS
PacBio RS II
Revio
Sequel
Sequel II
Sequel IIe
Onso
ION_TORRENT Ion Torrent PGM
Ion Torrent Proton
Ion Torrent S5 XL
Ion Torrent S5
Ion Torrent Genexus
Ion GeneStudio S5
Ion GeneStudio S5 Plus
Ion GeneStudio S5 Prime
CAPILLARY AB 310 Genetic Analyzer
AB 3130 Genetic Analyzer
AB 3130xL Genetic Analyzer
AB 3500 Genetic Analyzer
AB 3500xL Genetic Analyzer
AB 3730 Genetic Analyzer
AB 3730xL Genetic Analyzer
OXFORD_NANOPORE GridION
MinION
PromethION
BGISEQ BGISEQ-500
BGISEQ-50
BGISEQ-1000
BGISEQ-100
DNBSEQ DNBSEQ-E25
DNBSEQ-G50(MGISEQ-200)
DNBSEQ-G400(MGISEQ-2000)
DNBSEQ-G400 FAST
DNBSEQ-G99
DNBSEQ-T1
DNBSEQ-T5
DNBSEQ-T7
DNBSEQ-T10
DNBSEQ-T10×4
DNBSEQ-T20
DNBSEQ-T20×2
DNBSEQ-G800
GENEMIND GenoCare 1600
GenoLab M
FASTASeq 300
SURFSeq 5000
SURFSeq Q
ELEMENT Element AVITI
GENAPSYS GS111
TAPESTRI Tapestri
ULTIMA UG 100
VELA_DIAGNOSTICS Sentosa SQ301
CAPITALBIO BioelectronSeq 4000
CycloneSEQ CycloneSEQ-WT02

*标题

实验标题,用于搜索或公开展示的短语或短句。

文库信息

*文库名称

您构建的文库名称。

*文库构建策略

文库构建策略说明了该文库的测序技术。

文库构建策略 描述
WGA 非pcr扩增的全基因组的随机测序
WGS 全基因组的随机测序
WXS 从基因组中选择的外显子区域的随机测序
RNA-Seq 整个转录组的随机测序
miRNA-Seq 小miRNA的随机测序
WCS 从基因组中分离的整个染色体或其他复制子的随机测序
CLONE 基于基因组克隆(分级)的测序
POOLCLONE 混合克隆的鸟枪法建库测序(通常是BACs和Fosmids)
AMPLICON 重叠或不同的PCR或RT-PCR产物测序
CLONEEND 克隆末端(5'、3'或两端)测序
FINISHING 终止法测序
ChIP-Seq 染色质免疫沉淀物的直接测序
MNase-Seq MNase消化后的直接测序
DNase-Hypersensitivity 对超敏位点或用DNaseI更容易切割的开放染色质片段的测序
Bisulfite-Seq 用亚硫酸氢盐根据甲基化状态将DNA的胞嘧啶残基转化为尿嘧啶后的测序
Tn-Seq 从转座子插入位点开始的测序
EST cDNA模板的单次测序
FL-cDNA cDNA模板的全长测序
CTS 级联标签测序
MRE-Seq 甲基化敏感性限制性酶测序
MeDIP-Seq 甲基化DNA免疫沉淀测序
MBD-Seq 甲基化片段的直接测序
Synthetic-Long-Read 对大的DNA片段进行合并和条形码标记以利于片段的组装
ATAC-seq 转座酶可接近性核染色质测序(ATAC),用于研究全基因组染色质的可接近性。使用设计的Tn5转座酶切割DNA并将引物DNA序列整合到切割的基因组DNA中,是DNase-seq的替代方法。
ChIA-PET 邻近连接的染色质免疫沉淀物的直接测序
FAIRE-seq 甲醛辅助的调控元件分离,揭示开放染色质区域。
Hi-C 染色体构象捕获技术将生物素标记的核苷酸结合在接头处,能够进行嵌合DNA连接点的选择性纯化,然后进行深度测序。
ncRNA-Seq 非编码RNA测序,捕获其他非编码RNA类型,包括翻译后修饰类型,如snRNA(小核RNA)或snoRNA(小核仁RNA),或表达调控类型,如siRNA(小干扰RNA)或piRNA/piwi/RNA(与piwi蛋白相互作用的RNA)。
RAD-Seq 限制性位点相关的DNA序列测序
RIP-Seq RNA免疫沉淀物的直接测序(包括CLIP-Seq、HITS-CLIP和PAR-CLIP
SELEX 指数富集配体的系统进化
ssRNA-seq 链特异性转录组测序
snRNA-seq 单核RNA测序是一种分析难以分离的细胞中基因表达的方法。
Targeted-Capture 基因座目标集的富集
Tethered Chromatin Conformation Capture 染色质构象捕获测序
DIP-Seq DNA免疫沉淀测序 (DIP-Seq)
GBS 基因分型测序是一种发现单核苷酸多态性用于基因分型研究的方法。
Inverse rRNA 通过寡核苷酸杂交去除核糖体RNA
NOMe-Seq 核小体占据和甲基化测序。
Ribo-Seq 核糖体分析(也称为核糖体足迹)使用专门的信使 RNA (mRNA) 测序来确定哪些 mRNA 正在积极翻译。 它产生细胞中在特定时刻活跃的所有核糖体的“全局快照”,称为翻译组。
VALIDATION CGHub特殊要求:重新评估假定变体的独立实验
ChM-Seq ChIPmentation结合了染色质免疫沉淀和通过Tn5转座酶进行测序文库制备的技术
OTHER 未列出的建库策略(请在“设计说明”中添加更多信息)

*文库来源

文库来源说明了测序源材料的类型。

文库来源 描述
GENOMIC 基因组DNA(包括来自基因组DNA的PCR产物)
TRANSCRIPTOMIC 转录产物或非基因组DNA(EST、cDNA、RT-PCR、筛选文库)
METAGENOMIC 来自宏基因组的混合材料
METATRANSCRIPTOMIC 来自自然环境中的目标微生物的转录产物
SYNTHETIC 合成DNA
VIRAL RNA 病毒RNA
GENOMIC SINGLE CELL  
TRANSCRIPTOMIC SINGLE CELL  
TRANSCRIPTOMIC SPATIAL  
OTHER 其他未指定或未知的文库来源材料(请在“设计说明”中添加更多信息)

*文库选择

文库选择说明了用于选择、排除、富集或筛选待测样本的方法。

文库选择 描述
RANDOM 通过剪切或其他方法随机选择
PCR 通过设计的引物选择
RANDOM PCR 通过随机产生的引物选择
RT-PCR 通过逆转录PCR选择
HMPR 亚甲基部分限制性消化选择(Hypo-methylated partial restriction digest)
MF 甲基过滤选择(Methyl Filtrated)
MDA 多重置换扩增选择(Multiple displacement amplification)
MSLL 跨越甲基衔接物文库法选择(Methylation Spanning Linking Library)
cDNA 互补DNA选择(complementary DNA)
ChIP 染色质免疫沉淀选择(Chromatin immunoprecipitation)
MNase 微球菌核酸酶(MNase)消化选择(Micrococcal Nuclease (MNase) digestion)
DNase 脱氧核糖核酸酶(MNase)消化选择(Deoxyribonuclease (MNase) digestion)
Hybrid Selection 通过芯片或杂交液进行杂交选择
Reduced Representation 可再生的基因组子集,通常由限制性片段大小选择产生,包含易处理数量的位点以便重新采样
Restriction Digest 使用限制酶进行DNA打断
5-methylcytidine antibody 使用针对5-甲基胞嘧啶或5-甲基胞苷(m5C)的抗体选择甲基化DNA片段
MBD2 protein methyl-CpG binding domain 通过甲基-CpG结合结构域富集
CAGE 帽式分析基因表达(Cap-analysis gene expression)
RACE cDNA末端快速扩增(Rapid Amplification of cDNA Ends)
size fractionation 物理方法选择大小合适的目标片段
Padlock probes capture method 环化寡核苷酸探针捕获方法
Oligo-dT 通过与Oligo-dT杂交富集信使RNA(mRNA)
repeat fractionation 通过Cot过滤(CF)或基于DNA动力学的其他分级技术选择较少重复(和富含基因)的序列
Inverse rRNA 通过寡核苷酸杂交去除核糖体RNA
Inverse rRNA selection 通过反向寡核苷酸杂交去除核糖体 RNA
PolyA PolyA选择或富集信使 RNA (mRNA); 应取代 cDNA 计数
cDNA_oligo_dT  
cDNA_randomPriming  
other 其他文库富集、筛选或选择过程(请在“设计说明”中添加更多信息)
unspecified 未指定的文库富集、筛选或选择方法(请在“设计说明”中添加更多信息)

*文库设计

文库设计说明了:单末端测序reads,还是双末端测序reads。

文库设计 描述
分段/单个 单末端测序 read
成对 双末端测序reads

文库设计描述

单个文库的目的和设置。

数据文件

*文件名称

测序文件的名称。

*MD5值

文件的MD5值。

状态

文件上传的状态。

状态 描述
未检测到文件

我们系统并未检测到您的文件,这可能:

  1. 文件检测可能耗时几分钟到几十分钟,请稍后再试;
  2. 您并没有上传相关文件到我们的系统,或者您上传文件的文件名和您在元数据中填写的文件名不一致。
计算中 数据文件已上传,但系统还未计算或正在计算该文件的MD5值。
MD5不匹配 数据文件已上传或上传一部分,系统计算的MD5值与用户填写的MD5值不一致。
校验完成 数据文件已上传且校验完成。

组装

组装是用于表示物种基因组的基因组序列集。

基本信息

提交类型

 

字段 描述
提交批量组装 用户需要上传一个描述组装的文件进行组装的批量提交
提交单个组装 用户需要手动通过在线方式提交单个的组装信息

*项目编号

组装关联的项目编号。

*样本编号

组装关联的样本编号。

元数据

组装元数据

 

字段 描述
*assembly_name 组装名(例如:GRCh37.p5)
*assembly_method 组装所使用的程序或方法
*assembly_method_version 组装使用的程序的版本号
*sequencing_technology 测序平台
*sequencing_depth 测序的平均深度 例: 12
assembly_min_gap_length 最小的gap长度,NNNNNs被称为一个gap
*assembly_mol_type DNA组装还是RNA组装,或者病毒基因组组装
*genome_type 基因组类型,比如全基因组组装,叶绿体基因组组装,宏基因组组装等
*assembly_level 组装水平,比如染色体水平,scaffold水平等

 

 

数据文件

*文件类型

组装文件格式

文件类型 描述
Fasta 表示碱基序列的测序数据格式 格式:标题行以>字符开始,后面的数据行为碱基序列

*文件名

组装文件的名称。

*MD5值

组装文件的MD5值。

状态

文件上传的状态

状态 描述
未检测到文件

我们系统并未检测到您的文件,这可能:

  1. 文件检测可能耗时几分钟到几十分钟,请稍后再试;
  2. 您并没有上传相关文件到我们的系统,或者您上传文件的文件名和您在元数据中填写的文件名不一致。
计算中 数据文件已上传,但系统还未计算或正在计算该文件的MD5值。
MD5不匹配 数据文件已上传或上传一部分,系统计算的MD5值与用户填写的MD5值不一致。
校验完成 数据文件已上传且校验完成。

变异

接收任何物种的基因组变异数据递交,包括单核苷酸多态性,短的插入/缺失和基因组结构变异等,并提供长期稳定的归档编号和数据。变异数据的信息包含分析、样本集、受试者、Call、区域、文件。

递交模板

变异数据递交,包含三个模板:

SNP_submission_template.v1.1.xlsx  用于递交简单且长度<=50bp 基因组变异,例如单核苷酸多态性(SNP)、插入和缺失突变(INDEL)、微卫星重复等。该模板包含分析、样本集、受试者、文件,这 4 个部分的信息必须递交。

SV_submission_template.v1.1.xlsx 用于递交复杂且长度>50bp 的基因组结构变异(SV),例如插入、缺失、重复、倒位易位、可移动元件等。该模板包含分析、样本集、受试者、call、区域、文件,共 6 个部分,其中分析、样本集、受试者信息必须递交,Call、文件信息至少递交一个或两个都递交,区域信息可选择性递交。

CAHV_Submission_template.v1.0.xlsx  用于递交临床相关的人类基因组变异(CAHV),包括基因组变异及相关的表型和临床意义等信息。该模板包含分析、样本集、受试者、Call,共 4 个部分,这 4 个部分的信息必须递交。

代谢

代谢组学数据,包括代谢组学研究的设计、方案、试验、样本等元数据和原始数据文件。

代谢元数据包括描述信息和试验信息:

描述信息是对研究的设计、因素、方案等信息的描述。

试验信息是对研究代谢物和试验仪器参数等信息的描述。

递交模板

代谢数据递交,包含四个模板:

Template_Metabolism_Descriptions_MS_NMR.xlsx 用于递交代谢的描述信息。

Template_Metabolism_Assay_GC-MS.xlsx 用于递交使用气相色谱-质谱(GC_MS)技术的试验信息。

Template_Metabolism_Assay_LC-MS.xlsx 用于递交使用液相色谱-质谱(LC-MS)技术的试验信息。

Template_Metabolism_Assay_NMR.xlsx 用于递交使用核磁共振(NMR)技术的试验信息。

单细胞

使用单细胞技术产生的数据的分析结果。

单细胞元数据主要包括基因表达文件、元数据文件、聚类文件及其他文件的描述信息。

递交模板

Template_Single_Cell.xlsx

病毒序列

病毒序列数据,包括组装的或非组装的病毒序列。

病毒序列元数据主要包括序列信息及相关的样本信息、实验信息、提交单位等信息。

递交模板

Template_Virus_Sequence.xlsx

序列

除物种基因组组装序列外的序列数据,包括核糖体RNA(rRNA)、rRNA-ITS、多细胞动物COX1、mRNA、细胞器、ncRNA、质粒、噬菌体、合成构建体等的序列数据。

序列元数据具体字段信息可以参考CNSA_Sequence_Submission_Instructions.docx

递交模板

Templete_Sequence_File_List.xlsx 用于递交数据文件列表。

Template_sequence_v1.0.gb 用于递交元数据和序列。


数据文件格式

测序

CNSA接收6种格式的测序数据,包括FASTQ、BAM、SFF、PacBio_HDF5和CRAM。

FASTQ 格式

我们推荐使用FASTQ格式,单末端测序和双末端测序的reads都可以接受。请注意,所有文件不能打包成一个文件上传。您帐户的文件夹中所有文件名必须唯一。

  • 质量值必须用Phred质量值范围。
  • 支持ASCII和空格分隔的十进制编码表示的质量值。我们将自动检测Phred质量值的偏移量:33或64。
  • 不允许存在实验技术使用的reads(接头、连接和条形码序列)。
  • 单末端测序 reads必须用单个Fastq 文件提交,read的名字可有可无。
  • 双末端测序必须用分开的两个Fastq 文件提交。read的名字必须包含能够区分是第一条还是第二条的后缀,例如'/1' and '/2' (reads的常规表示格式为:"^@([a-zA-Z0-9_-]+:[0-9]+:[a-zA-Z0-9]+:[0-9]+:[0-9]+:[0-9-]+:[0-9-]+) ([12]):[YN]:[0-9]*[02468]:[ACGTN]+$").
  • 每条read的第一行必须以字符'@'开头。
  • 常规的碱基表示方式为:"^([ACGTNactgn.]*?)$"
  • 碱基和质量值必须用'+'作为分隔行。
  • FASTQ文件必须用gzip或bzip2进行压缩。
  • 单末端测序reads的FASTQ文件示例:
    @read_name
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
    +
    !''*((((***+))%++)(%).1***-+*''))**55CCF>>>>>>CCCCCCC65
    ...
  • 双末端测序reads的FASTQ文件示例:
    @read_name/1
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
    +
    !''*((((***+))%++)(%).1***-+*''))**55CCF>>>>>>CCCCCCC65
    @read_name/2
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
    +
    !''*((((***+))%++)(%).1***-+*''))**55CCF>>>>>>CCCCCCC65
    ...

BAM 格式

提交的 BAM 文件必须可以用Samtools打开。

BAM文件名要以后缀(.bam)结尾。

所有文件不能打包在一起提交。

您账户文件夹下的所有文件名必须唯一。

SFF 格式

SFF格式支持454和Ion Torrent 平台。

SFF文件名要以后缀(.sff)结尾。

所有文件不能打包在一起提交。

您账户文件夹下的所有文件名必须唯一。

PacBio_HFD5格式

PacBio_HFD5数据提交支持该平台的下机数据原始格式。

单次run 的文件包括三种后缀(.bax.h5, .bas.h5 and .xml)的文件。这些文件必须打包并压缩

为一个tar.gz或tar.bz的文件提交。

所有文件不能打包在一起提交。

您账户文件夹下的所有文件名必须唯一。

CRAM格式

CRAM是一种序列文件格式,通过使用基于参考的序列数据压缩来提高空间效率,并提供无损和有损压缩模式,具体的格式请参考CRAMv3.0

CRAM格式的文件必须以.cram为后缀。

所有文件不能打包在一起提交。

您账户文件夹下的所有文件名必须唯一。

组装

基因组组装数据提交包括质粒、细胞器、完整的病毒基因组、病毒片段/复制子、噬菌体、原核和真核生物基因组。染色体包括细胞器(例如线粒体和叶绿体)、质粒和病毒片段。

提交FASTA格式的文件格式,可以是contig,scaffold或是染色体序列文件。

提交的fasta文件需要经过gzip或bzip2压缩,并且在文件名中需要指出是contig,scaffold还是染色体组装文件。

在您的帐号文件夹下面,所有的文件名必须是唯一的。所有文件不能打包成一个文件上传。

Fasta格式

格式:

>序列名称
碱基序列

例如:

>contig1
AAACCCGGG...

变异

CNSA 目前仅接收 VCF 格式的变异数据。请注意您的变异数据需要转换成 VCF 文件格式,为确保 VCF 文件正确,在将数据转换成 VCF的时候建议您参考 VCFv4.3

VCF文件

VCF 是一种文本文件格式(可能以压缩方式存储)。它包含元信息行(前缀为“##”)、标题行(前缀为“#”)和数据行。每个数据行包含样本的基因组的位点信息和每个位点的基因型信息(文本字段通过 tab 分隔)。 不允许使用零长度字段,必须使用点(“.”)代替。 为了确保跨平台的互用性,VCF 必须支持 LF(\ n)和 CR + LF(\ r \ n)两种换行方式。

示例:

##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=< ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=< ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=< ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=< ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=< ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=< ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=< ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=< ID=q10,Description="Quality below 10">
##FILTER=< ID=s50,Description="Less than 50% of samples have data">
##FORMAT=< ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=< ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=< ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=< ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3
20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2
20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

代谢

CNSA接受多种格式的代谢数据文件格式,例如RAW、ZIP、JDX、CDF、WIFF、JCAMP、TXT等。

单细胞

CNSA接受的单细胞的数据文件包括基因表达文件、元数据文件、聚类文件和其他支撑文件。

基因表达文件

基因表达打分可以表示为“表达矩阵”或“MM坐标矩阵”。

表达矩阵

gene    cell_1    cell_2    cell_3    ...
Trp53   0         0         0         ...
Apoe    0         5.098     0         ...
Tlr4    0         0         0         ...
Lep     0         0         0.123     ...
Il6     1.234     0         0         ...
...

表达矩阵文件是一个密集矩阵文件,其标题行包含“gene”和单细胞名称。文件名后缀可以为 .txt、.txt.gz、.tsv、.tsv.gz、.csv、csv.gz。

M坐标矩阵

%%MatrixMarket    matrix    coordinate    real    general
%
12345             32456     234567
1                 56        1
1                 12        2
...

MM坐标矩阵文件是一个矩阵标记文件,其中包含坐标形式的稀疏矩阵。文件名后缀可以为 .mtx、.mtx.gz、.mm、.mm.gz、.txt、.txt.gz。 请注意,MM坐标矩阵文件必须在上传之前进行排序,并且您需要上传基因文件条形码文件。文件后缀可以为:.csv、.csv.gz、.tsv、.tsv.gz。基因文件包含所有注释的基因。每个基因在一行中表示。第一列是基因ID,第二列是基因名称。条形码文件包含MM坐标矩阵文件中使用的条形码。

  • MM坐标矩阵文件的前三行是标题行。
  • 第三行分别是基因文件、条形码文件、MM坐标矩阵文件的总行数。
  • 接下来的几行(第4行开始)包含三列:
    • 第一列为“基因ID”索引,对应于基因文件中该“基因ID”的序号。
    • 第二列为“细胞ID”索引,对应于条形码文件中的该“细胞ID”的序号。
    • 第三列代表每个细胞和基因组合的唯一分子标识符(UMI)总数。
    • MM坐标矩阵文件中的索引始于1。

元数据文件

name      cluster    sub_cluster    average_intensity    sample_name         experiment_accession
type      group      group          numeric              sample_attribute    experiment_attribute
cell_1    clst_A     clst_A_1       6.687                sample1             CNXxxxxxx
cell_2    clst_A     clst_A_1       -12.625              sample1             CNXxxxxxx
...

元数据文件是制表符分隔的文本文件,其中包含细胞水平的注释。文件后缀可以为.txt或.txt.gz。

  • 元数据文件至少有2列。
  • 第一行包含“name”和聚类水平的注释。
  • 第二行包含:
    • type”,用于声明元数据类型(请参见下文)。
    • 每个元数据列的值,声明其数据类型
      • group”(集员)的值为文字字符串。
      • numeric”(连续分数)的值为浮点数。
      • sample_name”(样本名)为您在CNSA提交的一个样本名称,必填。
      • experiment_accession”(实验编号)为您在CNSA提交的一个实验编号,可选。

聚类文件

name      X          Y          Z          category    intensity
type      numeric    numeric    numeric    group       numeric
cell_1    34.472     32.211     60.035     C           0.719
cell_2    15.975     10.043     21.424     B           0.904
...

聚类文件包含任何聚类坐标和可选的具体聚类的元数据。文件后缀可以为.txt或.txt.gz。

  • 聚类文件至少有3列
  • 包含“name”、“X”、“Y”、“Z”(可选),以及包含细胞水平的注释。
  • 第二行:
    • type”用于声明元数据类型(请参见下文)。
    • 每个元数据列的值,声明其数据类型
      • group”(集员)的值为文字字符串。
      • numeric”(连续分数)的值为浮点数。
      • X”,“Y”和“Z”列的值必须设置为“numeric”。

其他支撑文件

任何其他支撑文档或文件。

病毒序列

目前CNSA只接受FASTA格式的病毒数据文件。

文件后缀名可以为:.fa.gz, .fa.bz2, .fasta.gz, .fasta.bz2, .fasta, .fa。

序列

目前CNSA接受GenBank Flat File Format(GBFF)格式的序列文件,请勿随意更改序列文件格式,否则校验不通过。具体格式请参考序列模板CNSA序列格式说明

如果一个样本有多条序列,请将该样本的所有序列放在一个文件中,单个文件最多允许10000条序列。


数据上传

FTP数据上传

用户可以通过FTP上传数据文件至用户的个人目录。为了确保您的数据安全,CNSA采用FTPS加密方式传输数据。

使用FTP客户端上传数据文件的操作说明

  1. 使用您最喜欢的ftp客户端,例如FileZilla
  2. 文件传输使用二进制模式。
  3. 将 ftp.cngb.org 作为目标主机。
  4. 用您的FTP用户名和密码(可在数据提交流程或“我的服务”查看)登陆。
  5. 上传您的文件到您的个人FTP目录。
  6. 传输设置中,传输模式请选择“被动”;常规设置中,加密选项请选择 "使用显示FTP over TLS" 或者 "FTPS"。

在Linux / Mac上使用FTP命令行上传数据文件的操作说明

  1. 进入您要提交的文件所在的文件夹。
  2. 使用以下命令建立FTP连接:
    lftp 账号:密码@ftp.cngb.org(如ngb_xxx:password@ftp.cngb.org)
    FTP的账号和密码可在数据提交流程或“我的服务”查看。
  3. 使用以下命令拷贝数据文件到当前目录:
    拷贝单个文件:put file
    拷贝多个文件:mput files

注意:在用户的个人FTP目录,CNSA会保留用户上传的数据文件,直到所有的数据成功提交并归档。提供给用户上传数据的FTP目录是临时目录,不适合长期存储数据。如果上传至FTP的数据文件保存时间超过2个月且相关的元数据没有提交,我们将提前15天发送提醒邮件,如果没有特殊原因,仍然没有提交元数据,我们将定期删除。

Aspera 上传

用户可以通过Aspera上传数据文件至用户的个人目录。具体上传指引,请在递交数据时(数据上传方式选择Aspera命令行上传)参考相关的上传提示。


数据下载

FTP下载

  1. 点击CNSA首页导航栏的“下载”,进入数据下载页面。
  2. 您可以直接点击页面的“FTP”进入CNSA FTP,选择需要的文件,点击下载。

Aspera命令行下载

Linux系统下使用Aspera命令行下载操作说明:

  1. 点击Aspera Connect下载linux系统下的安装软件。
  2. 解压下载的软件,例如:tar -zxvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
  3. 安装解压的软件,例如:sh ibm-aspera-connect-3.11.1.58-linux-g2.12-64.sh
  4. 您可以使用以下命令通过Aspera命令行下载文件:
    [path/to/ascp/] -i [path/to/key/file] -P33001 -T -k1 -l100m aspera_download@183.239.175.39:/[path/to/files to download] [path/to/store/downloaded files]
    其中:
    • [path/to/ascp/] 是ascp的执行程序,其路径为:/home/[user]/.aspera/connect/bin/ascp
    • [path/to/key/file] 必须是秘钥文件的绝对路径。例如:/home/keys/aspera.openssh
    • -l100m 该参数受实际可用带宽影响,支持灵活调整,如用户下载带宽仅50M,-l100m 则修改为 -l50m
    • 获取秘钥文件
    • [path/to/files to download] 为需要下载的文件路径。请进入CNSA FTP,复制您要下载数据在浏览器上的地址,然后删除 “https://ftp.cngb.org”,其余路径即为命令行中需要填入的需要下载的文件路径。例如:如果您要下载FTP上该目录(https://ftp.cngb.org/pub/CNSA/data1/CNP0000007/CNS0000004/CNX0000010/CNR0048164/)下的文件,删除目录中“https://ftp.cngb.org/”,其余路径为:/pub/CNSA/data1/CNP0000007/CNS0000004/CNX0000010/CNR0048164/,即为您命令行中需要填入的 [path/to/files to download]
    • [path/to/store/downloaded files] 为存放下载文件的路径。例如:/home/[user]/download/

MD5校验

大型文件通过互联网传输不一定总能成功完成。

在文件传输前可以计算文件的MD5值,文件传输后可通过MD5值验证文件是否传输成功。MD5(信息摘要算法5)是一个计算给定文件的哈希值(MD5值,32位数字和字母)的哈希函数。

您必须为每一个提交的文件提供一个MD5值。 

我们将重新计算并验证MD5值,以确保文件传输完成而不更改文件内容。

获得MD5值(Linux)

通过执行下面命令获得文件的MD5值:

$ md5sum file1 file2
9F6E6800CFAE7749EB6C486619254B9C file1
B636E0063E29709B6082F324C76D0911 file2

获得MD5值(Mac OS X)

通过执行下面命令获得文件的MD5值:

$ MD5 file1 file2
9F6E6800CFAE7749EB6C486619254B9C file1
B636E0063E29709B6082F324C76D0911 file2

获得MD5值(Windows)

方法一:

首先,按计算机键盘上的【win】+【r】键来打开运行命令行窗口,然后,在弹出的运行窗口中输入“cmd”。

点击“确定”,进入cmd命令行界面。

使用如下命令做计算MD5值:

CertUtil -hashfile 路径\文件名 MD5 

举个例子:

方法二(适用于Win10):

首先,搜索Windows PowerShell。

然后,打开Windows PowerShell。

使用如下命令做计算MD5值:

Get-FileHash 路径\文件名 -Algorithm MD5 | Format-List 

举个例子:

方法三:

安装并运行Fsum Frontend (sourceforge.net/projects/fsumfe/) 。

首先,在"md5"上打勾。

点击[+]按钮后,打开您需要的序列数据文件。您可以同时选择多个文件。

点击 [Calculate hashes] 按钮,文件的MD5值会显示出来。

点击 [Export] 按钮,您可以获得MD5值的列表,生成html、csv、xml格式的文件。


伦理和人遗条例

关于来源于人类受试者的数据(人类数据)提交给CNSA,递交者有责任根据递交者所在机构的所有适用法律、条例、指导方针和政策确保人类受试者的尊严和权利得到保护。原则上,请务必从您要提交的数据中删除任何人类受试者的直接个人标识符。

向CNSA提交数据,用户必须遵循其所在国家的“人类遗传资源管理办法”和道德准则,提交真实的单位和联系信息,并对其上传数据的合法性和合规性负责。


编号规则

项目、样本、实验、测序、组装编号规则

数据类型 标号格式 编号示例
项目 “CNP”+ 7 numerals CNP0000063
样本 “CNS”+ 7 numerals CNS0001796
实验 “CNX”+ 7 numerals CNX0002218
测序 “CNR”+ 7 numerals CNR0002529
组装 “CNA”+ 7 numerals CNA0001632
代谢 “METM”+ 7 numerals METM0001234
单细胞 “CSE”+ 7 numerals CSE0001234

变异编号规则

变异数据类型 编号规则
Call (SNP) varc+01+数字(其中 01 表示小于或等于 50bp 变异,后面的数字累加呈现,如第 2341 个变异,varc012341)
Call (SV) varc+02+数字(其中 02 表示大于 50bp 变异,后面的数字累加呈现,如第 2341 个变异,varc022341)
Call (CAHV) varc+03+数字(其中 03 表示与临床相关的人类基因组变异,后面的数字累加呈现,如第 2341 个变异,varc032341)
Analysis CVA0000001(后面的数字累加呈现)
File CVF0000001(后面的数字累加呈现)
Subject CVS0000001(后面的数字累加呈现)
Region varr+02+数字(其中 02 表示大于 50bp 变异,后面的数字累加呈现,如第 2341 个变异, varr022341)

序列编号规则

序列数据类型 序列类型 编号规则 编号示例
核酸序列 直接递交 N+下划线+9个数字 N_000001234
WGS/TSA N+下划线+6个字母+2个数字(标识组装版本)+7个数字(scaffold/contig号)
6个字母的范围
基因组组装:AAAAAA-TZZZZZ
转录组组装:UAAAAA-ZZZZZZ
N_AAADBH010000000
N_UAADBH010000000

数据提交

注意事项

  1. 提交数据前请仔细阅读《数据递交说明》
  2. CNSA目前接收项目、样本、实验/测序、组装和变异数据的线上递交。
  3. 提交数据前,需要先注册/登录,填写递交者信息。
  4. 在提交实验/测序、组装和变异数据之前,需要先提交项目和样本。
  5. 样本可以独立提交,但是只有在提交相关数据之后,样本才与项目进行关联。
  6. 在数据提交流程中,带*的字段必填,其他的选填。
  7. 如果需要递交数据文件,为了更快捷的完成数据递交流程,建议在递交元数据前先递交数据文件。
  8. 数据提交完成,系统将在10秒后自动跳转到“我的提交”下相应的数据类型。
    • 点击已经完成的提交编号可以查看详细信息。
    • 在状态列,可直接查看单个提交的编号,还可在状态列下载批量提交的属性和编号文件。
    • 公开的单个提交的数据,点击状态列的数据编号可以跳转到公开详情页。公开的批量提交的数据可以在CNSA首页搜索数据编号进入详情页。
    • 点击状态列的“铅笔图标” 可以进行修改,若状态列没有“铅笔图标” ,请发邮件至datasubs@cngb.org申请并在邮件中注明提交编号或数据编号和修改原因。

注册/登录

用户可通过网址(https://db.cngb.org/cnsa)进入CNSA主页(图1)。点击页面右边的“登录/注册”标签进入登录/注册页面(图2)。(注:需先注册才能登录并提交数据)

图1 CNSA主页
图2 登录注册页面

递交者信息

CNSA会从用户的帐户信息获取部分递交者信息。用户填写的递交者信息会和提交的项目、样本、实验/测序、组装和变异数据绑定。在进行数据提交时,如果递交者信息没有填写完,系统会跳转到递交者页面,要求递交者补充信息;如果递交者信息填写完整,系统会自动跳过页面,进入提交页面。用户如需更改提交者信息,可点击首页导航的“我的CNGBdb”在下拉选项选择“递交者”,进入递交者页面(图3)进行修改。修改后的递交者信息会与正在提交或今后提交的数据进行绑定。

图3 递交者页面

提交入口

项目、样本、实验/测序、组装和变异数据可以通过各自的提交入口进入提交流程。请点击首页的“提交”或导航栏的“提交入口”进入提交入口页(图4),然后点击对应数据类型的提交入口进行数据提交。还可以在“我的提交”点击各个数据类型下的“新建提交”按钮进入相应的提交流程。

图4 提交入口页

提交项目

项目提交入口

提交入口页点击“项目”(图5)进入提交流程。

图5 项目提交入口

数据管理

在数据管理页(图6),需要选择一种数据管理形式。如果选择了公开或受控,需要设置公开日期。然后点击“保存并继续”,进入下一步。

注意

  1. 在选择数据管理形式时,前需仔细阅读选项下的提示信息,提交之后用户不能自行更改。如需修改,请发送邮件至datasubs@cngb.org,并在邮件中注明项目编号和修改理由。如果需要将受控的数据改为公开,请发送邮件至cngb-ebb@cngb.org申请并准备相应的审查材料。
  2. 如果您需要修改公开日期,请点击我的提交,在项目下找到该提交,点击公开日期列的“铅笔图标” 进行修改。
图6 数据管理

基本信息

在基本信息页(图7)填写项目标题、关联领域、公开描述信息、外部链接、关联项目等字段的信息,然后点击“保存并继续”,进入下一步。

图7 基本信息

详细信息

在详细信息页(图8),选择项目类型(可以多选)和样本范围,文献信息选填,然后点击“保存并继续”,进入下一步。如果您的文章暂未发表,可以在文章发表后,点击导航栏的“我的提交”,找到对应的提交编号,点击状态列的“铅笔图标” 进入修改流程,补充文章的相关信息。如果状态列没有“铅笔图标”,请联系datasubs@cngb.org,并在邮件中注明项目编号。

图8 详细信息

概览

概览页(图9)汇总了前面步骤中填写的信息,如发现有误,请点击“上一步”进入到前面任何一个页面进行相应的修改,如核对无误,请点击“提交”。在整个项目信息填写过程中,中途退出系统会保留上一次的填写结果。

图9 概览

我的提交-项目

项目提交完之后,系统会自动分配一个项目编号(CNPXXXXXXX),并在10秒后跳转到“我的提交-项目”,您可以在此页面查看该项目编号(图10)。

图10 我的提交-项目

提交样本

样本提交入口

提交入口页点击“样本”(图11)进入提交流程。

图11 样本提交入口

提交类型

选择一个提交类型(图12)。如果您一次提交多个样本,建议选择批量提交,此方式相对单个提交更加方便、快捷。您需要在提交流程中先下载样本的批量提交模板,然后填写后上传。如果您一次只提交一个样本,建议选择单个提交。您需要在提交流程中在线填写样本信息。

图12 提交类型
提交批量样本

选择样本类型(图13)。先在左边框内的下拉列表选择一个大类,然后在右边框内的下拉列表选择一个小类。请慎重选择样本类型,一旦提交了流程,不能自行修改,如需修改,请发送邮件至datasubs@cngb.org,并注明提交编号和修改理由。

下载样本批量提交模板,填写后上传(图13)。注意:每个样本不能与其他提交的样本重复。请补充或者修改“sample_name、sample_title、description”三个字段外的其他字段属性(包含非必填字段)以区分您提交的样本。

图13 提交批量样本

如果校验不通过,根据弹框提示的校验规则和错误行号进行修改,然后重新上传(图14)。

图14 校验结果

校验通过后,点击“提交”,系统会自动分配样本编号(CNSXXXXXXX),并在10秒后跳转到“我的提交-样本”,可在此页面状态列下载带有编号的元数据文件(图15)。

图15 我的提交-样本
提交单个样本

样本类型

在样本类型页(图16),选择一个样本类型,然后点击“保存并继续”,进入下一步。请慎重选择样本类型,一旦提交了流程,不能自行修改,如需修改,请发送邮件至datasubs@cngb.org,并注明提交编号和修改理由。

图16 样本类型

样本属性

在样本属性页(图17),不同的样本类型需要填写不同的属性信息,然后点击“保存并继续”,如果有字段校验不通过,请根据提示信息进行修改,然后点击“保存并继续”,进入下一步。

图17 样本属性

概览

本页面(图18)汇总了前面步骤中填写的信息,如发现有误,请点击“上一步”进入到前面任何一个页面进行相应的修改。在整个提交流程中,中途退出系统会保留上一次保存的结果。如核对无误,请点击“提交”。

图18 概览

我的提交-样本

样本提交完后,系统会自动分配一个样本编号如(CNSXXXXXXX),并在10秒后跳转到“我的提交-样本”。样本编号可在此页面的状态列查看(图19)。

图19 我的提交-样本

提交实验/测序

您需要递交实验/测序的元数据和数据文件,在提交实验/测序数据之前,请先创建项目样本

实验/测序提交入口

提交入口页点击“实验/测序”(图20)进入提交流程。

图20 实验/测序提交入口

提交类型

选择一个提交类型(图21)。如果您一次提交多个实验/测序,建议选择批量提交方式,此方式相对单个提交更加方便、快捷。您需要在提交流程中先下载实验/测序元数据的批量提交模板,然后填写后上传。如果您一次只提交一个实验/测序数据,建议选择单个提交方式。您需要在提交流程中在线填写实验/测序的元数据。

图21提交类型
提交批量实验/测序

根据数据上传方式上传数据文件(图22)。

下载实验/测序批量提交模板,填写后上传(图22)。如果校验不通过,根据弹框提示的校验规则和错误行号进行修改,然后重新上传。元数据校验通过后,系统将对数据文件进行MD5值校验。如果有未通过校验的文件,请根据弹框中的提示信息做相应处理(图23)。

图22 提交批量实验/测序
图23 校验结果

当数据文件的状态为“校验完成”时,请点击“提交”,系统会自动分配实验/测序编号(CNXXXXXXXX/CNRXXXXXXX),并在10秒后跳转到“我的提交-实验/测序”,可在此页面状态列下载带有编号的元数据文件(图24)。

图24 我的提交-实验/测序
提交单个实验/测序

基本信息

在基本信息页(图25),在下拉列表中选择实验/测序关联的项目编号和样本编号,然后点击“保存并继续”,进入下一步。如果没有递交项目和样本,请新建项目样本

图25 基本信息

元数据

在元数据页面(图26),可在实验复用部分选择已提交的实验编号,系统会自动填充该实验的信息。复制的实验信息可以修改,帮助用户快速填写。如未复用实验信息,需填写实验信息,然后点击“保存并继续”,如果有字段校验不通过,请根据提示信息进行修改,然后点击“保存并继续”,进入下一步。

图26 元数据

数据文件

在数据文件页(图27),请根据数据上传方式上传数据文件,并在“数据文件”部分的输入框内填写数据文件的文件名和MD5值(图27),然后点击“校验”。 如果输入框变为红色,请根据问号中的错误提示进行修改,然后点击“校验”。如果数据文件状态为“未上传、计算中或MD5值不匹配”,请根据页面该部分的提示信息做相应处理。如果数据文件状态为“校验完成”,请点击“保存并继续”,进入下一步。

图27 数据文件

概览

本概览页(图28)汇总了前面步骤中填写的信息,如发现有误,请点击“上一步”进入到前面任何一个页面进行相应的修改。在整个提交流程中,中途退出系统会保留上一次保存的结果。如核对无误,请点击“提交”。

图28 概览

我的提交-实验/测序

实验/测序提交完成后,系统会自动分配实验/测序编号(例如CNXXXXXXXX/CNRXXXXXXX),并在10秒后跳转到“我的提交-实验/测序”。实验编号可在此页面状态列查看(图29)。测序编号可点击该提交编号查看。

图29 我的提交-实验/测序

提交组装

您需要递交组装的元数据和数据文件,在提交组装数据之前,请先创建项目样本

组装提交入口

提交入口页点击“组装”(图30)进入提交流程。

图30 组装提交入口

提交类型

选择一个提交类型(图31)。如果您一次提交多个组装,建议选择批量提交方式,此方式相对单个提交更加方便、快捷。您需要在提交流程中先下载组装元数据的批量提交模板,然后填写后上传。如果您一次只提交一个组装,建议选择单个提交方式。您需要在提交流程中在线填写组装的元数据。

图31 提交类型
提交批量组装

根据数据上传方式上传数据文件(图32)。

下载组装批量提交模板,填写后上传(图32)。如果校验不通过,根据弹框(图33)提示的校验规则和错误行号进行修改,然后重新上传。元数据校验通过后,系统将对数据文件进行MD5值校验。如果有未通过校验的文件,请根据弹框中的提示信息做相应处理。

图32 提交批量组装
图33 校验结果

当数据文件的状态为“校验完成”时,请点击“提交”,系统会自动分配组装编号(例如CNAXXXXXXX),并在10秒后跳转到“我的提交-组装”,可在此页面状态列下载带有编号的元数据文件(图34)。

图34 我的提交-组装
提交单个组装

基本信息

在下拉列表中选择组装关联的项目编号和样本编号(图35),然后点击“保存并继续”,进入下一步。如果没有递交项目和样本,请新建项目样本

图35 基本信息

元数据

在元数据页面(图36),需填写组装元数据,然后点击“保存并继续”。如果有字段校验不通过,请根据提示信息进行修改,然后点击“保存并继续”,进入下一步。

图36 元数据

数据文件

在数据文件页(图37),请根据数据上传方式上传数据文件,并在“数据文件”部分的输入框内填写数据文件的文件名和MD5值,然后点击“校验”。 如果有字段校验不通过,请根据字段下的错误提示进行修改,然后点击“校验”。如果数据文件状态为“未上传、计算中或MD5值不匹配”,请根据页面该部分的提示信息做相应处理。如果数据文件状态为“校验完成”,请点击“保存并继续”,进入下一步。

图37 数据文件

概览

在概览页(图38)汇总了前面步骤中填写的信息,如发现有误,请点击“上一步”进入到前面任何一个页面进行相应的修改。在整个提交流程中,中途退出系统会保留上一次保存的结果。如核对无误,请点击“提交”。

图38 概览

我的提交-组装

组装提交完成后,系统会自动分配组装编号(例如CNAXXXXXXX),并在10秒后跳转到“我的提交-组装 ”。组装编号可在此页面状态列查看(图39)。

图39 我的提交-组装

提交变异

在提交变异数据之前,请先创建项目样本,实验/测序数据可以选择性递交。

变异提交入口

提交入口页点击“变异”(图40)进入提交流程。

图40 变异提交入口

提交变异数据

选择一个变异类型(图41)。

图41 变异类型

上传变异的VCF文件。

如果选择SNP,需要先上传变异的VCF文件至FTP,然后下载SNP提交模板,填写后上传(图42)。

图42 提交SNP

如果选择SV,需要下载SV提交模板,填写后上传。VCF文件可选择性提交(图43)。

图43 提交SV

如果选择CAHV,只需要下载提交模板。填写后上传(图44)。

图44 提交CAHV

模板文件填写、上传后,系统将依次对模板中的每个表进行校验,如果有字段未通过校验,请根据弹框(图45)中的校验规则和错误行号进行修改,然后重新上传,再点击“校验”。

图45 校验结果

如果校验通过,点击“提交”,系统将在10秒后跳转到“我的提交-变异”,数据审核通过后,可在此页面状态列下载带有编号的元数据文件(图46)。

图46 我的提交-变异

提交代谢

在提交代谢数据之前,请先创建项目样本

代谢提交入口

提交入口页点击“代谢”(图47)进入提交流程。

图47 代谢提交入口

提交代谢数据文件和元数据

先根据数据文件格式要求和数据上传方式上传数据文件(图48)。

图48 提交代谢数据文件

代谢元数据包括描述信息和试验信息。描述信息必须提交,描述信息上传之后才能增加试验。前一个试验上传之后才能增加新的试验。请先下载描述信息模板,填写后上传(图49)。

图49 提交代谢描述信息

系统将依次校验提交文件中的每个表,如果字段校验不通过,请根据弹框提示的校验规则和错误行号进行修改,然后重新上传(图50)。

图50 描述信息校验结果

点击“增加试验”创建一个试验(图51)。系统会根据您的选择提供相应的试验模板,请下载模板,填写上传。如果字段校验不通过,请根据弹框提示的校验规则和错误行号进行修改,然后重新上传。

图51 增加试验

元数据校验通过后,系统将对数据文件进行MD5值校验。您可以在”数据文件状态”模块(图52)查看数据文件状态,如果有未通过校验的文件,请点击“查看”并根据弹框中的提示信息做相应处理。

图52 数据文件状态

当数据文件的状态为“校验完成”时,请点击“提交”,系统会自动分配代谢编号(METMXXXXXXX),并在10秒后跳转到“我的提交-代谢”,可在此页面“元数据状态”列查看代谢数据编号并下载元数据文件(图53)。

图53 我的提交-代谢

提交单细胞

在提交单细胞数据之前,请先创建项目样本

单细胞提交入口

提交入口页点击“单细胞”(图54)进入提交流程。

图54 单细胞提交入口

关联项目

填写该数据关联的项目编号和细胞数量(图55)。

图55 关联项目

提交单细胞数据文件和元数据

先根据数据文件格式要求和数据上传方式上传数据文件(图56)。注意:基因表达文件必须提交,其他类型的文件可选。如果您的基因表达文件、元数据文件和聚类文件需要分组,请在文件名中添加分组名称。

图56 提交单细胞数据文件

下载单细胞元数据提交模板,填写后上传(图57)。

图57 提交单细胞元数据

系统将依次校验提交文件中的每个表,如果字段校验不通过,请根据弹框提示的校验规则和错误行号进行修改(图58),然后重新上传。

图58 单细胞元数据校验结果

元数据校验通过后,系统将对数据文件进行MD5值校验。您可以在“数据文件状态”模块(图59)查看数据文件状态,如果有未通过校验的文件,请点击“查看”并根据弹框中的提示信息做相应处理。

图59 数据文件状态

当数据文件的状态为“校验完成”时,请点击“提交”,系统会自动分配单细胞编号(CSEXXXXXXX),并在10秒后跳转到“我的提交-单细胞”,可在此页面“元数据状态”列查看单细胞数据编号并下载元数据文件(图60)。

图60 我的提交-单细胞

提交病毒序列

在提交病毒序列数据之前,请先创建项目样本可以选择性递交。

病毒序列提交入口

提交入口页点击“病毒序列”(图61),或者在病毒数据平台点击“提交数据”(图62)进入提交流程。

图61 提交入口页-病毒序列提交入口
图62 病毒数据平台-病毒序列提交入口

选择公开日期

请选择此次提交的病毒数据的公开日期(图63)。注意,病毒数据的公开日期需晚于此数据关联的项目的公开日期。否则,该公开日期无效,系统将在项目的公开日期公开此数据。如果您需要提前公开此数据,请调整项目的公开日期。

图63 病毒数据公开日期

提交病毒数据文件和元数据

根据数据文件格式要求和数据上传方式将FASTA格式的序列数据文件上传至FTP(图64)。

图64 提交病毒序列数据文件

下载病毒元数据提交模板,填写后上传(图65)。

图65 提交病毒元数据

系统会对您提交的文件进行字段校验,如果校验不通过,请根据弹框(图66)提示的校验规则和错误行号进行修改,然后重新上传。

图66 元数据校验结果

元数据校验通过后,系统将对数据文件进行MD5值校验。您可以在“数据文件状态”模块(图67)查看数据文件状态,如果有未通过校验的文件,请点击“查看”并根据弹框中的提示信息做相应处理。

图67 数据文件状态

当数据文件的状态为“校验完成”时,请点击“提交”,系统会自动为每条序列分配编号(例如N_AAADBH010000000),并在10秒后跳转到“我的提交-病毒序列”,可在此页面状态列下载带有编号的元数据文件(图68)。

图68 我的提交-病毒序列

提交序列

在提交序列数据之前,请先创建项目样本可以选择性递交。注意:物种基因组数据请通过组装入口进行提交,病毒序列请通过病毒序列入口进行提交。

序列提交入口

提交入口页点击“序列”(图69),进入提交流程。

图69 序列提交入口

提交序列数据文件和文件列表

根据数据文件格式要求和数据上传方式上传序列数据文件(图70)。

图70 提交序列数据文件

下载序列文件列表的提交模板,填写后上传(图71)。

图71 提交文件列表

系统会对您提交的文件进行字段校验,如果校验不通过,请根据弹框(图72)提示的校验规则和错误行号进行修改,然后重新上传。

图72 文件列表校验结果

元数据校验通过后,系统将对数据文件进行MD5值校验。您可以在“数据文件状态”模块查看数据文件状态(图73),如果有未通过校验的文件,请点击“查看”并根据弹框中的提示信息做相应处理。

图73 数据文件状态-MD5校验

当MD5校验通过后,系统会对序列进行序列格式校验。请您确保您递交的序列格式为GenBank Flat File Format(GBFF)格式。如果有未通过格式校验的文件,请点击“查看”并修改弹框提示的格式错误的序列文件(图74),然后重新上传,系统将再次校验。

图74 数据文件状态-序列格式校验

当数据文件的状态为“校验完成”时,请点击“提交”,系统会自动为每条序列分配编号(例如N_000001234),并在10秒后跳转到“我的提交-序列”,可在此页面状态列下载带有编号的文件列表(图75)。如果刚提交完,该提交的“状态”列未出现“下载编号和文件列表”,说明系统正在分配序列编号,请刷新页面。

图75 我的提交-序列