2022-05-27 1869CNGBdb
生命科学数据库系列采访之二: 国家基因库在生物大数据领域的思考与实践
近年来,开放数据理念逐步推进;在生命科学领域,大数据研究蓬勃发展。为此,威立与五家数据库合作在2022年4月28日组织了一场题为“生命科学数据库专题讲堂”的数据网络研讨会。在研讨会上,国家生物信息中心、深圳国家基因库、国家微生物科学数据中心、中国科学院上海营养与健康研究所生物医学大数据中心和国家蛋白质科学中心五大国内数据平台负责人齐聚一堂,对各大数据库运营和使用情况进行了详细介绍。在问答环节,针对“数据库标准化、数据的开放获取和隐私保护、数据产业化、数据库国内外认可度”等众多科研工作者们关心的具体问题,与会老师们也一一进行了专业解答。该研讨会参与人数众多,讨论热烈,获得了观众的广泛好评。为进一步扩大数据库相关知识的普及范围,我们对各位报告人进行了专题采访,将以系列推文的形式与大家进行分享。
主讲嘉宾:魏晓锋
现任深圳国家基因库生物信息数据库副主管,地球生物基因组计划(EBP) IT/informatics子委员会主席,负责EBP全球各子项目的信息化和数据标准规划,全球基因组生物多样性联盟(GGBN)数据共享和获取标准专家组成员。主要负责生命科学领域大数据系统的设计和研发,包括带领团队设计和建设国家基因库生命大数据平台CNGBdb,成为国内首个的全球共享流感数据倡议组织(GISAID)数据库授权平台。论著《生物信息数据库建设、使用与管理指南》,制订数据库国家标准《GBT 34798-2017 核酸数据库序列格式规范》(2020年获得深圳市科学技术奖标准奖)。
问:国家基因库是什么时候成立的?
答:深圳国家基因库(China National GeneBank,CNGB, 以下简称“国家基因库”)由国家发展和改革委员会、财政部、工业和信息化部、国家卫生健康委员会(原卫生部)四部委批复建设,由深圳华大生命科学研究院(原深圳华大基因研究院)承建,于2016年建成使用。随着“政府所有、委托运营、独立运作”的运行机制调整,目前由深圳国家高技术产业创新中心统筹指导,过渡期委托深圳华大生命科学研究院开展深圳国家基因库运营工作。
问:国家基因库的建设成果有哪些?
答:国家基因库是服务于国家战略的重大科技基础设施之一,对生物遗传资源进行存储、读取和开放共享,并以此为基础搭建起挖掘基因资源,支撑生命科学研究和生物产业创新发展的公益性、开放性、引领性、战略性科技平台,是世界领先的综合性生物遗传资源基因库。目前,国家基因库已经具备千万级样本存储能力、Pb级的数据产出能力、PB级数据存储能力、691亿次/秒计算能力的基础设施。截止2021年12月底,累计发布35项标准(包括国际标准2项和国家标准10项)。同时,国家基因库是“广东省基因组科学数据中心”的承建单位,该中心将填补广东省基因组科学领域的空白,建成具有全国领先水平、具备广东特色的基因组科学数据中心,发挥发平台整合优势,与国家、省科学数据中心形成优势互补。
问:国家基因库的服务包括了哪些领域?
答:在开放共享平台建设方面,国家基因库基于生命周期全覆盖,“样本、活体、数据”全贯穿的能力,建立国家基因库生命大数据平台(CNGBdb, https://db.cngb.org/),为全球科研工作者提供生物大数据智能搜索、汇交管理、可信计算和科学应用等服务,建立大数据搜、存、算、用为一体的闭环,助力科研合作、成果发表,促进生物、医学、农业等产业发展。
关于数据资源的“存”,国家基因库序列归档系统(CNSA,https://db.cngb.org/cnsa/)是一个方便快捷的生命科学数据归档系统,提供测序数据及分析结果数据归档服务。CNSA遵循国际通用的组学数据标准,支持项目、样本、实验/ 测序、组装、变异、代谢、单细胞、序列等多种数据类型在线、批量递交。其数据递交服务可作为文献出版流程的补充,支持早期数据的共享。截止2021年12月底,已为国内外200多家单位提供服务,汇交超过6 PB数据,作为发表科技文章的数据上传结点,累计支撑351篇文章发表,覆盖183家国际科学期刊。在科学数据资源合作联盟建设方面,已经与国际肿瘤基因组协作组(ICGC)、全球共享流感数据倡议组织(GISAID)、国际生物及环境样本库协会(ISBER)、国际科学数据委员会(CODATA)、全球基因组生物多样性联盟(GGBN)等组织机构建立深度合作。
关于数据资源的“算”,国家基因库可信计算系统(CODEPLOT,https://db.cngb.org/codeplot ,beta version)是一个集可信计算环境和多元化在线分析工具于一体的生命大数据分析平台,也是国内率先将数据加密、区块链、安全多方计算、基因安全容器虚拟化等最新安全策略应用于生命大数据分析利用和合作共享的平台。用户无需任何编程背景,就可使用该平台的计算工具进行自动化的生物信息学分析。CODEPLOT为生命科学领域的研究和行业提供了数据共享、工作流管理、弹性云计算资源和安全可信协作环境的全面解决方案。
问:国家基因库的数据资源如何使用?
答:关于数据资源的“用”,CNGBdb作为国内最大的生物大数据中心之一,收录和整合了国家基因库及全球其他重要数据源的多领域数据资源,构建动植物多样性、微生物、健康与疾病等不同方向的科学数据库(https://db.cngb.org/scientific_database/)。例如,在农业育种方向,生菜综合数据库(LettuceDB,https://db.cngb.org/lettuce/)是世界上最大的生菜种质基因资源数据库,提供生菜栽培及野生育种的多组学数据,未来将包含3000+份生菜数据资源。本次发布的V1.0版本包括450份生菜资源的2亿条基因变异信息,同时提供生菜及野生近缘种的基因数据和种质信息,旨在为生菜科研与育种工作提供全面的数字化资源。在单细胞方向,搭建的非人灵长类动物百万单细胞交互式资源网站——非人灵长类动物全细胞图谱数据库(NHPCA,https://db.cngb.org/nhpca/)于国家基因库生命大数据平台(CNGBdb)同期上线,旨在为生物医学发展提供一个全面、便捷基于单细胞水平的非人灵长类多组学数据可视化资源库,助力人类疾病研究。目前版本的NHPCA包括成年猕猴45个器官的约114万个细胞的单细胞可视化分析结果,用户可以通过数据库导航栏项目直接获取不同组织中的细胞聚类信息(Clustering)、基因表达/共表达情况(Gene expression)、跨物种比较信息(Cross-species)和细胞间配体受体相互作用(Cell-cell)。
问:能否介绍一下国家基因库近期举办的数据算法大赛?
答:生命大数据平台的核心在于高质量数据和高效工具的建设, 国家基因库通过举办数据算法大赛促进生物技术(BT)、计算机技术(IT)等不同学科背景人才的交流,共同推进BT和IT融合创新。2022年举办的“数源杯”百万单细胞基因表达数据算法大赛,吸引了国内外100余家知名高校和近90家企事业单位的专业技术人员参与,包括北京大学、清华大学、波士顿大学、费城儿童医院、中科院计算所、解放军总医院、华为、腾讯、百度、平安科技等,累计提交作品1819个。同时,举办的国内首届隐私保护计算大赛(简称 WPPCC)——基因赛道,来自哈工大(深圳)-奇安信数据安全研究院、清华大学智能产业研究院、中国科学院信息工程研究所、中国科学院大学、上海交通大学香港科技大学、多伦多大学、百度的30多支队伍报名参赛。
未来,国家基因库生命大数据平台(CNGBdb)将继续秉承“安全、开放、共享”的原则,与各领域科研机构、产业单位通力合作,继续发挥大数据技术优势,最大化释放生命大数据应用/转化价值,助力生命科学、医学、农业等领域创新发展。
| 本转载自“Wiley分子细胞科学”