/
/
/
国家基因库生命大数据平台上线

国家基因库生命大数据平台上线

2018-10-25 10:50:24
2025-01-09 10:50:25
7

2018 年 10 月 25 日,在华大集团主办的第十三届国际基因组学大会(ICG-13)上,深圳国家基因库在与会嘉宾的共同见证下,正式发布“国家基因库生命大数据平台”(China National GeneBank Database,以下简称“CNGBdb”),成为本届 ICG 大会的一大亮点。

国家基因库 CNGBdb 平台负责人、华大集团大数据中心大数据应用团队负责人魏晓锋对 CNGBdb 进行了介绍。该平台为促进生物大数据的共享和利用而生。与其他数据平台不同,CNGBdb 在大数据和云计算技术的支持下,基于国家基因库、NCBI(美国国立生物技术信息中心)、EBI(欧洲生物信息研究所)、OMIM(在线人类孟德尔遗传数据库)等平台海量数据的整合,贯穿“搜”、“存”、“算”、“用”多重需求,打破领域内数据库分散林立的障碍,以统一门户为用户一站式解决全部需求,因此被称为“基因界的谷歌”。

CNGBdb 平台负责人魏晓锋

CNGBdb 具体能做什么?平台负责人魏晓锋介绍称,该平台面向全球科研人员提供数据归档、知识搜索、计算分析、管理授权、可视化等数据服务,覆盖母婴健康、肿瘤、动植物多样性、病原微生物等十几个研究领域,形成一个融合多研究领域、多数据类型、多分析维度的超大型科研数据系统。

CNGBdb 数据结构

CNGBdb 首先为国内科研人员解决了“存”的难题——国内本地化的数据归档空间。它旗下的核酸序列归档系统(CNSA)提供英汉双语界面、1Gb 带宽、批量归档功能,确保用户能轻松上手、快速上传和下载,并加强了我国遗传数据资源的安全性。同时,CNGBdb 赋予每条科学数据一个唯一的“身份证”——DOI(数字对象标识符)标识,方便检索、追踪和引用,提高数据的曝光率和引用率。截至现在,该平台已经支持了近 3000 个项目,归档数据将近 600TB。

CNSA

据悉,CNGBdb 的另外一大优势,是分布式的、由 AI 驱动的搜索引擎。它同时也是生命科学垂直领域的最大搜索引擎,已实现 30+ 亿索引、10+TB 元信息的互联。文献、变异、基因、蛋白质、序列等 12 个结构的数据彼此联结,检索时关联信息汇集于同一页面,一目了然,使信息搜集和筛选效率翻倍。此外,CNGBdb 搜索引擎不仅达到秒级响应速度,还支持中文关键词和全文检索。

而在“算”方面,CNGBdb 提供一系列数据计算和分析服务,其中 BLAST 是最值得推荐的应用之一,这是一个高性能混合计算池,整合了 NCBI 最新的 nt、nr 库,且拥有 CNGB 独有的千种植物转录组数据集、万种鸟基因组项目数据集、全球最大免疫序列数据集等,方便用户对核酸或蛋白质序列进行搜索对比。

CNGBdb BLAST

CNGBdb 的发布,可谓生命科学领域的一大盛举,引起国内外与会嘉宾的强烈反响。该平台目前已正式上线,用户可访问 db.cngb.org 体验其各项功能和服务。平台负责人魏晓锋表示,相信 CNGBdb 将为国内外生命科学领域的科研提供巨大便利。国家基因库还将进一步扩充平台的数据存储,结合前沿技术继续加强平台的功能和服务,更好地促进生命多组学大数据的互联互通、开放共享及有效利用,推动生命科学和生物产业的快速发展。

登录 CNGBdb 或国家基因库官网
体验国家基因库生命大数据平台服务

扫码,先睹为快:

国家基因库生命大数据平台(CNGBdb)