/
/
/
Hortic Res 5月封面文章 | 我国生物数据归档系统(CNSA)助力文章发表和数据安全共享

Hortic Res 5月封面文章 | 我国生物数据归档系统(CNSA)助力文章发表和数据安全共享

2025-05-06 16:56:54
2025-05-09 17:01:23
186

 

 

经Horticulture Research编委会专家评审,题为The China National GeneBank Sequence Archive (CNSA) 2024 update的研究论文被评选为2025年5月封面文章。

 

在生命科学领域,数据就是科研的“粮食”。随着测序技术的飞速发展,多组学数据呈井喷式增长,科研人员愈发依赖开放、稳定的数据存储与共享平台来推动研究进展。然而,近年来国际形势的变化给数据共享带来了挑战。自2025年4月起,美国国立卫生研究院(NIH)对中国等国家实施了数据访问限制,包括dbGaP、SEER癌症监测数据库等重要数据库均受到影响,这给中国科研人员获取数据带来了诸多不便。面对这种情况,我国早有预案,提前布局建设了数个独立自主的生物数据归档库,为我国科研工作者发表论文和获取数据提供有力支撑,国家基因库生物数据归档平台(CNSA,https://db.cngb.org/cnsa/)就是其中的代表性数据库。

图为CNSA可提供的服务

 

 

自2017上线以来,CNSA已成为全球生命科学领域的重要数据归档平台,数据归档量达全球前五,提供包括基因组、转录组、代谢组、单细胞组和空间转录组等多种组学数据的归档存储与开放共享服务。目前,CNSA已经支持超过17 PB的数据归档,涵盖约8,000种物种,助力约2,000篇论文发表,为超过640个机构提供数据开放共享服务,访问量超过2千万,覆盖全球85%国家和地区。

 

同时,CNSA 积极参与并支持了多项大型国际科研项目,如地球生物基因组计划(Earth Biogenome Project, EBP)和万种植物基因组计划(10,000 Plant Genomes Project, 10KP)等,为这些项目的数据共享与合作提供了坚实基础。此外,CNSA构建了多个园艺植物数据库,以生菜数据库(LettuceDB)为例,其整合了全球445份生菜种质材料的多组学数据,建立了基因型与表型等多组学数据的关联,并部署了丰富的生物信息学工具包,为研究人员提供了全方位的数据支持。

图为CNSA园艺植物数据共享和再利用实例

 

在数据递交流程上,CNSA采用【项目】-【样本】-【数据】的结构,并提供中英双语操作环境。用户需先创建项目和样本,再上传数据文件。CNSA结合人工审核与自动化程序,将在1-3个工作日内完成数据审核。用户可自行设定项目公开时间,或在项目公开前申请审稿人链接。每个项目公开时均会分配DOI,便于引用和追溯。

 

在数据标准和国际认可方面,CNSA 严格遵循 FAIR(可查找、可访问、互操作、可重用)原则以及基因组标准联盟(GSC)和国际核苷酸序列数据库合作联盟(INSDC)的标准,确保归档数据的高质量与互操作性。此外,CNSA 已获得FAIRsharing、OpenDOAR、re3data、CoreTrustSeal、CODATA 等多个国际科学数据机构的认证,并获得包括Cell Press在内的众多学术出版商的认可。这意味着,我国科研工作者可将数据存储归档于CNSA后发表文章,无需再依赖国外数据库。

 

为进一步应对复杂的国际形势,CNSA正在备份NCBI常用数据库的数据,比如GEO,genebank,Refseq等,部分已经备份好的NCBI数据可以在国家基因库生命大数据平台(CNGBdb,https://db.cngb.org/)的数据下载专区获取。

 

欢迎广大科研工作者将数据归档至CNSA,或下载所需数据。如有疑问,请随时通过电话(0755-3630 7296)或邮箱(datasubs@cngb.org)联系CNSA团队。

 

华大生命科学研究院王伟文、谈聪为本文的共同一作,华大生命科学研究院院长徐讯、深圳国家基因库主任王博、数据共享中心负责人魏晓锋为论文共同通讯作者。华大生命科学研究院李玲、华聪、杨帆等参与了本研究。

 

团队合影

 

文章链接:http://doi.org/10.1093/hr/uhaf036


国家基因库生物数据归档平台:https://db.cngb.org/cnsa/

 

| 本文转载自“园艺研究”公众号