2022-04-28 5072CNGBdb
国家基因库生命大数据平台(China National GeneBank DataBase, CNGBdb)是一个为科研社区提供生物大数据共享和应用服务的统一平台(Science as a Service),基于大数据和云计算技术,提供数据归档、计算分析、知识搜索、管理授权和可视化等数据服务。
2018年10月25日
深圳国家基因库经国家发改委等四部委及深圳市政府的批复与支持,于2016年建成使用。作为服务于国家战略的重大科技设施之一,目前深圳国家基因库已具备千万级可溯源样本存储能力,十万级基因组/年的存储和计算能力,并在此基础上建立了综合性生命科学数据共享平台——国家基因库生命大数据平台(CNGBdb),为全球科研工作者提供生物大数据汇交管理和共享服务。
CNGBdb是国内最大的生物大数据中心之一,整合了来源于国家基因库、NCBI、EBI、DDBJ等平台的数据,包括文献、变异、基因、蛋白质、序列、项目、样本、实验、测序、组装10个结构的大量分子数据和其他信息,通过CNGBdb搜索建立索引,并将这些数据与样本甚至样本活体相关联,从而实现数据从活体到样本再到信息数据全过程的可追溯性,达成综合数据的全贯穿。
数据归档:为提供便捷的测序数据归档和数据管理服务,CNGBdb已构建了国家基因库序列归档系统(CNSA, https://db.cngb.org/cnsa),可以接受全球用户在线提交的生物研究项目、样本、实验、测序数据及后期项目研究结果等信息。CNSA是一个测序数据归档和分享系统,主要遵循在全球生命科学领域广泛达成共识的INSDC和DataCite等数据库标准,同时其还提供早期数据的共享等服务,方便科研文章在投稿过程中杂志编辑检查投稿文章中的数据是否已经全部成功上传。
知识搜索:除了国家基因库的生命科学大数据资源,CNGBdb还整合很多外部数据库的优秀数据资源,如科研文献、基因、变异、蛋白质和序列等知识数据。为了使用户能够快速准确的检索到其需要的数据和信息,CNGBdb中搭建了生命大数据搜索引擎。CNGBdb的知识搜索服务,基于Elasticsearch搜索引擎,支持全文检索功能,检索速度快。搜索引擎可对检索的结果进行综合评分排序,将最匹配的最符合用户检索目的数据排在前列,通过数据编号索引可以查看检索出的每一条数据的详细信息。CNGBdb搜索引擎还实现了分布式的实时文件存储,每个字段都被索引并可被搜索,可以扩展到上百台服务器,处理PB级结构化或非结构化数据,提供更加深层次的数据、信息和知识的关联关系。
数据管理:CNGBdb基于独立的用户统一登录系统(UMS)进行用户登陆注册和管理。UMS具备单点登录、用户管理和权限管理3大核心功能,其中单点登录实现了在同一个集群里,用户只需登录一次即可访问已授权的系统。用户在UMS系统注册后,可使用同一个ID和密码访问CNGBdb所有的独立数据库或服务,无需重复注册。UMS给每个用户都赋予唯一识别编码,作为各系统数据贯穿的核心索引,用于打通CNGBdb的各数据库资源。CNGBdb制定了数据资源分类和数据访问形式分类机制,进行数据分类分级保护和统一管理。
数据计算:CNGBdb可信计算平台CODEPLOT是一个集可信计算环境和多元化在线分析工具于一体的生命大数据分析平台,也是国内率先将数据加密、区块链、安全多方计算、基因安全容器虚拟化等最新安全策略应用于生命大数据分析利用和合作共享的平台。用户无需任何编程背景,就可使用该平台的计算工具进行自动化的生物信息学分析。CODEPLOT 为生命科学领域的研究和行业提供了数据共享、工作流管理、弹性云计算资源和安全可信协作环境的全面解决方案。
数据应用:CNGBdb基于底层数据结构和数据,构建了包括动物、植物、微生物等不同专题数据库及分析系统。为便捷和及时地共享科研数据,除CNGBdb已经构建的不同研究领域的数据库,还允许用户自定义创建数据集并共享发布。相比于传统的数据库共享,用户不需要开发数据库、运营和维护数据库。在CNGBdb仅需上传数据、创建数据集和分享数据集3步,即可将科研数据分享给科研领域的研究人员。
依托于国家基因库的生命大数据中心有以下优势:
(1)国家基因库多年来支撑开展的重大基因组项目,如万种鸟类基因组项目[24]、万种鱼类基因组项目[25]、千种植物转录组项目[26]等,积累了海量珍贵数据资源;
(2)国家基因库多年来已建成了世界级基因组高通量测序平台和高性能计算平台;
(3)国家基因库与国内外合作开展的生物样本资源库及其数字化项目;
(4)国家基因库在长期大量基因组学项目中积累的生物信息分析能力和多组学数据深度整合的能力。国家基因库多年来积累的海量基因组学数据和强大的多组学数据计算分析和整合能力,将为CNGBdb提供丰富的生物数据资源和强有力的维护支撑能力。
深圳国家基因库(China National GeneBank,CNGB)由国家发展和改革委员会、财政部、工业和信息化部、国家卫生健康委员会(原卫生部)四部委批复建设,由深圳华大生命科学研究院(原深圳华大基因研究院)承建,于2016年建成使用。随着“政府所有、委托运营、独立运作”的运行机制调整,目前由深圳国家高技术产业创新中心统筹指导,过渡期委托深圳华大生命科学研究院开展深圳国家基因库运营工作。
深圳国家基因库是服务于国家战略的重大科技基础设施之一,对生物遗传资源进行存储、读取和开放共享,并以此为基础搭建起挖掘基因资源,支撑生命科学研究与生物产业创新发展的公益性、开放性、引领性、战略性科技平台,是世界领先的综合性生物遗传资源基因库。
中国科技网·科技日报深圳2018年10月25日电(记者刘传书)打造“基因界的谷歌”,为了给科研工作者提供更好的生物大数据共享和应用服务。10月25日,国家基因库生命大数据平台上线。
在深圳召开的为期三天的第十三届国际基因组学大会(“ICG-13”)开幕式上,深圳国家基因库正式发布了国家基因库生命大数据平台(China National GeneBank DataBases,以下简称“CNGBdb”)。基于大数据和云计算技术,CNGBdb面向全球科研人员提供数据归档、计算分析、知识搜索、管理授权和可视化等数据服务,并通过分布性的、由AI驱动的搜索引擎,实现60+亿索引、10+TB元信息的互联,实现检索的秒级响应。
专家介绍,此平台可称为“基因界的谷歌”,它将为国内生命科学领域的科研提供巨大便利,促进生命多组学大数据的互联互通、开放共享及有效利用,并推动生命科学和生物产业的快速发展。
CNGBdb是一个开放的生命科学大数据共享平台,致力于促进生命科学研究项目中生成的数据及研究项目所取得的成果的开发共享和合作利用。目前,CNGBdb提供生物大数据归档、管理、搜索、计算、分析及应用一体化的生命大数据服务。
CNGBdb的建设和发展,将促进我国生物遗传数据与生命科学数据的规范管理和利用,为生物、医药、农业和海洋等诸多产业的科学研究提供数据共享平台,推动我国生命科学向更深入、更为广阔和更多创新的领域发展。CNGBdb作为国家基因库的对外数据共享平台,不仅促进扩大国内、国际交流与合作的范围,还将促进国内外生命科学数据的汇集、交流和互通。