国家基因库生命大数据平台

2022-04-28 428CNGBdb

国家基因库生命大数据平台(China National GeneBank DataBase, CNGBdb)是一个为科研社区提供生物大数据共享和应用服务的统一平台(Science as a Service),基于大数据和云计算技术,提供数据归档、计算分析、知识搜索、管理授权和可视化等数据服务。

平台上线时间

2018年10月25日

平台介绍

作为服务于国家战略的重大科技基础设施之一,国家基因库已初步建成覆盖生命全周期的“三库两平台”业务结构和功能。“三库“之一的生物信息数据库是基因数据存储、分析的一体化平台,数十PB (Petabyte) 级存储容量和691 万亿次/秒计算能力。基于生物信息数据库搭建的国家基因库生命大数据平台(CNGBdb)可实现亿级索引、TB (Terabyte)级元数据的互联。

CNGBdb是国内最大的生物大数据中心之一,整合了来源于国家基因库、NCBI、EBI、DDBJ等平台的数据,包括文献、变异、基因、蛋白质、序列、项目、样本、实验、测序、组装10个结构的大量分子数据和其他信息,通过CNGBdb搜索建立索引,并将这些数据与样本甚至样本活体相关联,从而实现数据从活体到样本再到信息数据全过程的可追溯性,达成综合数据的全贯穿。 

平台服务

数据归档:为提供便捷的测序数据归档和数据管理服务,CNGBdb已构建了国家基因库序列归档系统(CNSA, https://db.cngb.org/cnsa),可以接受全球用户在线提交的生物研究项目、样本、实验、测序数据及后期项目研究结果等信息。CNSA是一个测序数据归档和分享系统,主要遵循在全球生命科学领域广泛达成共识的INSDC和DataCite等数据库标准,同时其还提供早期数据的共享等服务,方便科研文章在投稿过程中杂志编辑检查投稿文章中的数据是否已经全部成功上传。

知识搜索:除了国家基因库“三库两平台”的生命科学大数据资源,CNGBdb还整合很多外部数据库的优秀数据资源,如科研文献、基因、变异、蛋白质和序列等知识数据。为了使用户能够快速准确的检索到其需要的数据和信息,CNGBdb中搭建了生命大数据搜索引擎。CNGBdb的知识搜索服务,基于Elasticsearch搜索引擎,支持全文检索功能,检索速度快。搜索引擎可对检索的结果进行综合评分排序,将最匹配的最符合用户检索目的数据排在前列,通过数据编号索引可以查看检索出的每一条数据的详细信息。CNGBdb搜索引擎还实现了分布式的实时文件存储,每个字段都被索引并可被搜索,可以扩展到上百台服务器,处理PB级结构化或非结构化数据,提供更加深层次的数据、信息和知识的关联关系。

数据管理:CNGBdb基于独立的用户统一登录系统(UMS)进行用户登陆注册和管理。UMS具备单点登录、用户管理和权限管理3大核心功能,其中单点登录实现了在同一个集群里,用户只需登录一次即可访问已授权的系统。用户在UMS系统注册后,可使用同一个ID和密码访问CNGBdb所有的独立数据库或服务,无需重复注册。UMS给每个用户都赋予唯一识别编码,作为各系统数据贯穿的核心索引,用于打通CNGBdb的各数据库资源。CNGBdb制定了数据资源分类和数据访问形式分类机制,进行数据分类分级保护和统一管理。

数据计算:CNGBdb可信计算平台CODEPLOT是一个集可信计算环境和多元化在线分析工具于一体的生命大数据分析平台,也是国内率先将数据加密、区块链、安全多方计算、基因安全容器虚拟化等最新安全策略应用于生命大数据分析利用和合作共享的平台。用户无需任何编程背景,就可使用该平台的计算工具进行自动化的生物信息学分析。CODEPLOT 为生命科学领域的研究和行业提供了数据共享、工作流管理、弹性云计算资源和安全可信协作环境的全面解决方案。

数据应用:CNGBdb基于底层数据结构和数据,构建了包括动物、植物、微生物等不同专题数据库及分析系统。为便捷和及时地共享科研数据,除CNGBdb已经构建的不同研究领域的数据库,还允许用户自定义创建数据集并共享发布。相比于传统的数据库共享,用户不需要开发数据库、运营和维护数据库。在CNGBdb仅需上传数据、创建数据集和分享数据集3步,即可将科研数据分享给科研领域的研究人员。

平台优势

依托于国家基因库的生命大数据中心有以下优势:

(1)国家基因库多年来支撑开展的重大基因组项目,如万种鸟类基因组项目[24]、万种鱼类基因组项目[25]、千种植物转录组项目[26]等,积累了海量珍贵数据资源;

(2)国家基因库多年来已建成了世界级基因组高通量测序平台和高性能计算平台;

(3)国家基因库与国内外合作开展的生物样本资源库及其数字化项目;

(4)国家基因库在长期大量基因组学项目中积累的生物信息分析能力和多组学数据深度整合的能力。国家基因库多年来积累的海量基因组学数据和强大的多组学数据计算分析和整合能力,将为CNGBdb提供丰富的生物数据资源和强有力的维护支撑能力。

平台历史

2011年01月,国家发展和改革委员会批复,依托深圳华大生命科学基因研究院(原深圳华大基因研究院)组建深圳国家基因库。国家基因库“三库两平台”,的“三库”由生物样本资源库、生物信息数据库和动植物资源活体库组成,“两平台”为数字化平台、合成与编辑平台。国家基因库以对海量生物资源的存、读、写能力为基础,搭建起基因资源挖掘的公益性、开放性、引领性、战略性科技平台。CNGBdb基于国家基因库的活体、样本和数据资源,提供多种生物大数据共享和应用服务。

国家基因库的一个主要优势在于,构建了覆盖生命周期的活体库、样本库、信息库,CNGBdb将三库的信息贯穿相互关联,提供对外数据共享服务,使生物数据在整个生命周期中可追溯。

中国科技网·科技日报深圳2018年10月25日电(记者刘传书)打造“基因界的谷歌”,为了给科研工作者提供更好的生物大数据共享和应用服务。10月25日,国家基因库生命大数据平台上线。

在深圳召开的为期三天的第十三届国际基因组学大会(“ICG-13”)开幕式上,深圳国家基因库正式发布了国家基因库生命大数据平台(China National GeneBank DataBases,以下简称“CNGBdb”)。基于大数据和云计算技术,CNGBdb面向全球科研人员提供数据归档、计算分析、知识搜索、管理授权和可视化等数据服务,并通过分布性的、由AI驱动的搜索引擎,实现60+亿索引、10+TB元信息的互联,实现检索的秒级响应。

专家介绍,此平台可称为“基因界的谷歌”,它将为国内生命科学领域的科研提供巨大便利,促进生命多组学大数据的互联互通、开放共享及有效利用,并推动生命科学和生物产业的快速发展。

平台展望

CNGBdb是一个开放的生命科学大数据共享平台,致力于促进生命科学研究项目中生成的数据及研究项目所取得的成果的开发共享和合作利用。目前,CNGBdb提供生物大数据归档、管理、搜索、计算、分析及应用一体化的生命大数据服务。

CNGBdb的建设和发展,将促进我国生物遗传数据与生命科学数据的规范管理和利用,为生物、医药、农业和海洋等诸多产业的科学研究提供数据共享平台,推动我国生命科学向更深入、更为广阔和更多创新的领域发展。CNGBdb作为国家基因库的对外数据共享平台,不仅促进扩大国内、国际交流与合作的范围,还将促进国内外生命科学数据的汇集、交流和互通。

上一篇下一篇

相关专题