CNSA 常见问答
CNSA是什么?
国家基因库序列归档系统(CNSA)是一个方便快捷的生命科学数据归档系统,提供测序数据及分析结果数据的归档服务。CNSA遵循国际通用的组学数据标准,支持项目、样本、实验/测序、组装、变异、代谢、单细胞、序列等多种数据类型在线、批量递交。其数据递交服务可作为文献出版流程的补充,支持早期数据的共享。
CNSA接收哪些数据?
CNSA目前可以接收项目、样本、实验/测序、组装、变异、代谢、单细胞、序列的元数据或数据文件。
什么是元数据?
元数据是描述信息资源或数据对象的数据。例如,实验/测序的元数据指的是对实验/测序数据的描述,例如测序平台、建库方法等;实验/测序的数据文件指的是测序的reads文件。
如何提交数据?
请击 CNSA 首页的“提交”或导航栏的“提交入口”,选择数据类型,按照页面提示流程进行元数据或数据文件的递交。若涉及数据文件上传,可在提交流程或“我的服务”查看数据上传方式。FTP上传方法可参考“FTP数据上传”,文件MD5值计算可参考“MD5校验”。简单的数据提交流程可参考“CNSA操作手册(简易中文版)”,详细数据提交流程请查看“数据提交”。
如何通过FTP上传数据?
请先下载FTP客户端,例如Filezilla FTP客户端,用CNSA提供的ftp服务器、用户名和密码登录,然后上传数据。FTP的服务器、用户名和密码可在数据提交流程或“我的服务”查看。具体上传方法请参考“FTP数据上传”。
什么是MD5和MD5校验?
MD5(信息摘要算法5)是一个计算给定文件的哈希值(MD5值,32位数字和字母)的哈希函数。通过计算一个文件上传前、后的MD5值可以校验该文件是否成功上传。MD5值的具体生成方法请参考“MD5校验”。
CNSA如何支撑归档数据的长期保藏?
国家基因库生命大数据平台将按国家相关法律法规要求,建设标准化的数据保藏体系,为汇交的科学数据提供可靠的保存和长期保存服务。 国家基因库生命大数据平台已经制定了完善的数据长期保藏方案,随着数据保藏介质和设备的更新,将采取相应的应对措施(包括但不限于数据加密,数据备份等方法),保障汇交的科学数据得到永久保藏,并不因技术发展而出现遗失。详情请见:长期保存计划。
CNSA的数据管理形式有哪些?
CNSA积极推崇开放共享的科学理念,坚信数据开放获取对于科学发现至关重要。为了推动生物数据的共享和再次利用,CNSA遵循TRUST和FAIR原则,提供了公开与受控两种数据管理形式。
什么是公开数据?如何设置数据公开?
公开数据指数据管理形式为“公开”的数据,即项目关联的元数据和数据文件都公开。公开数据面向全球开放访问,接受用户的访问和下载。公开数据面遵循知识共享许可 CC BY 4.0。
如果您希望以“公开”方式管理数据,请在项目提交流程的数据管理模块选择“公开”选项。
什么是受控数据?如何设置数据受控?
受控数据指数据管理形式为“受控”的数据,即项目关联的元数据公开,数据文件受控。受控数据接受用户的访问和下载申请。
如果您希望以“受控”方式管理数据,请在项目提交流程的数据管理模块选择“受控”选项。
如何查看已经提交的数据状态及编号?
请在CNSA首页点击“我的提交”查看。在“状态”列可以查看对应提交的编号或下载带有编号的元数据文件。
CNSA的数据编号的规则是?
CNSA将自动分配编号,分别以CNP(项目)、CNS(样本)、CNSebb(EBB样本)、CNX(实验)、CNR(测序)、CNA(组装)、varc(变异)、METM(代谢)、CSE(单细胞)等为前缀。具体的编号规则请查看“编号规则”。
提交的各个状态如何解释?
状态 | 解释 |
---|---|
未完成 | 数据提交流程还未进行到最后一步。 |
处理中 | 数据提交流程已经完成,数据未审核或审核中。 |
已审核 | 数据已通过审核,有公开日期,但是未到公开日期。 |
已受控 | 数据已通过审核,没有公开日期,不能公开。 |
已公开 | 数据已通过审核且在提交人设置的公开日期公开。 |
如何修改已提交的数据?
请在CNSA首页点击“我的提交”,查找到需要修改的对象,点击“铅笔图标”进行修改,每个对象可修改的范围及字段的要求可以在修改流程中查看。请不要再新建流程提交类似的信息以达到修改的目的!修改不会影响已分配编号的引用!需要修改已审核的无“铅笔图标” 的对象或删除某些对象,请发送邮件至 datasubs@cngb.org 申请修改或删除,并在邮件中提供相应编号。
如何修改数据的公开日期?
CNSA的数据管理形式有三种:公开、受控、私有,您可以在提交项目时选择一种数据管理形式。公开数据的公开日期和受控数据的元数据公开日期可以在项目的提交流程中设置,如果需要修改公开日期,请在CNSA首页点击“我的提交”,查找到需要修改的提交。
如果项目的状态为“未完成”,点击项目“状态”列的“铅笔图标”进入流程修改公开日期。
如果项目的状态为“处理中”或“已审核”,可以点击“公开日期”列的日期或“铅笔图标”修改公开日期。
如果项目的状态为“已公开”或“已受控”,请发送邮件至 datasubs@cngb.org 申请修改,并注明项目编号和修改原因。
如何修改数据管理形式?
如需变更,请您发送邮件至数据管理员(datasubs@cngb.org),并在邮件中注明项目编号和变更原因,管理员将通过邮件向您发送《数据管理形式变更申请表》。
请您根据实际情况以及《数据管理形式变更申请表》中的提示,完成该表的填写,并将该申请表的word填写版本和完成签名的扫描件,以及相关材料,如人遗备案号及备案信息表(若需要)发送至datasubs@cngb.org。
还请您注意,平台仅接受以项目为单位(一个项目编号下)的数据管理形式的变更申请,不接受同一个项目编号下部分数据变更。如您有此类需求,请在数据递交初始即提交为两/多个项目。
已提交的信息需要经过哪些审核环节?
材料审核:数据管理员(datasubs@cngb.org)将审核您提交的数据递交申请及其与您提供的材料(若有)的一致性。请注意,审核时间一般为5个工作日。在审核递交申请期间,您可以继续提交其他数据。
数据审编:数据管理员(datasubs@cngb.org)将审核您递交数据的完整性、正确性及相关性。若您递交的数据有误,数据管理员将通过邮件通知您进行修改。若您递交的数据无误,根据所提交的样本量,数据量,审核时间一般不超过5-7个工作日;
审核结束后,数据管理员将通过邮件告知您审核通过或申请终止。如审查通过,您的数据将按照您选择的数据管理形式归档为公开数据、受控数据或私有数据。
如何引用您提交的数据?
如果您的数据已提交至CNGBdb-CNSA,请在文章中引用CNGBdb编号,引用方式参考如下:
英文:
The data that support the findings of this study have been deposited into CNGB Sequence Archive (CNSA)[1] with accession number CNPXXXXXXX.
中文:
该研究的相关结果数据已递交到生命大数据平台的序列归档系统(CNSA) [1],项目编号:CNPXXXXXXX。
[1] Weiwen Wang, et al. The China National GeneBank Sequence Archive (CNSA) 2024 update. Horticulture Research. 2025 Feb 6;12(5):uhaf036. doi: 10.1093/hr/uhaf036. PMID: 40224325
如何获得审稿人链接?
如果您的数据为受控的数据,请发送邮件至 datasubs@cngb.org 申请,并在邮件中给出CNSA的项目编号。如果数据已公开,可以直接在CNSA首页的搜索框内输入CNSA的项目编号,将搜索到的数据详情页链接发送给杂志。目前我们可以提供项目、样本、实验/测序、组装、变异的审稿人链接。审稿人链接的有效期为2个月,如果需要延期,请发邮件至 datasubs@cngb.org 申请延期,邮件中需要注明该审稿人链接。
如何向他人共享我公开的项目数据?
你可以使用项目编号(CNPXXXXXXX)共享您的项目数据。在您完成递交项目信息填写后,CNSA会自动生成与您填写的项目信息关联的项目编号。该编号为该项目的唯一编号,您可以在”个人中心”中查看相关项目及编号信息。在项目公开后,其他用户可以根据该编号可以在CNSA官网搜索到您的项目。
你可以使用DOI共享您的项目数据。DOI(Digital Object Identifier)数字对象唯一标识符,是国际通用、全球唯一、永久的数字资源标识符。在您递交的项目通过审核并公开后,CNSA会自动根据您的项目编号,自动进行DOI标识(例:10.26036/CNPXXXXXXX)。项目编号(CNP)及数字对象标识符(DOI)将作为您递交项目的唯一标识编号,您可以使用其进行您项目的信息共享。有关DOI的更多信息,您可以访问:doi.org。
如何检索数据?
公开的数据可以在CNSA首页的搜索框输入编号等关键词进行搜索。
如何下载数据?
只有公开的数据允许用户自由下载。用户可点击CNSA首页导航栏的“下载”,进入CNSA FTP 下载页面下载数据,也可以在首页的搜索框输入数据编号,进入搜索详情页下载。下载和使用公开的数据时,请遵守《CNSA用户须知》。
如何申请使用受控数据?
受控数据指的是元数据公开、数据文件受控的数据。其他注册用户可以到国家基因库数据受控中心申请受控数据的使用权限。数据申请者必须在数据提交者审核同意后才可以使用数据,并由数据提交者向数据申请者发放访问权限或数据文件。
怎样联系我们?
如果您有任何问题和建议, 可随时联系 datasubs@cngb.org。
地址:深圳市大鹏新区金沙路国家基因库大鹏总部
联系电话:0755-36307296
QQ群:894343659
请关注我们的公众号和视频号: