2019-06-05 4433CNGBdb
编者按
5月27日,生命大数据高峰论坛暨第四届基因组云计算技术开发者峰会(GCTA 4)在贵阳隆重举行。作为2019数博会的重要组成部分,会议聚焦“阅读、管理、理解、计算生命大数据”,分享前沿学术报告,解读最新政策及行业动态,为生命大数据的研究与应用再添新动力。接下来科技君不定期为您分享大会上的精彩报告。第一期来自深圳国家基因库大数据应用负责人魏晓锋的主题报告《构建生命大数据应用平台》。
围绕如何搭建生命应用大平台,魏晓锋分享了国家基因库生命大数据平台(CNGBdb)的设计思路及服务优势,并展示了CNGBdb在助力生命大数据研究与应用方面取得的成果。以下是内容详情。
生命就是大数据,其载体可能是动物、植物,也有可能是细胞,甚至磁盘或磁带。这里涉及一个关键词:种质(编者注:种质是指生物体亲代传递给子代的遗传物质,往往存在于特定品种之中。 如古老的地方品种、新培育的推广品种、重要的遗传材料以及野生近缘植物,都属于种质资源的范围)。
哪些种质的应用对经济有较大价值?中国的种质资源丰富到什么程度?对于丰富的种质资源,应该如何做好信息存储?
另外,每个人都是一个行走的大数据库。每个人从受精卵成长及至衰老,整个身体里动态维持着40多万亿细胞,每个细胞里都有23对染色体。IT领域经常提到一个词叫量级,提升一个量级需要经常更新方法。而在BT领域的难题是,我们每个人有3G的基因组数据,通过测序分析会产生数百GB甚至1TB以上的数据。海量数据对平台和方法有更严苛的要求。
面对庞杂的数据,CNGBdb团队把自身的数据和公开的信息进行了整合。那么,如何在上层构建一个新的载体以组织连接?魏晓锋认为,在这个平台上,需要做三件事情:数据、系统、网络。
具体到数据。CNGBdb构建了一个数据仓库,整合了内外部的数据,建立标准流程,所有的数据都以节点的形式来承载。
此外还有数据挖掘。整个平台被分成数据层、平台层、应用层。未来,用户如需创建数据应用,只需一个按钮,就能像做选择题一样选择相关模块。
对应到网络,作为一个平台,并不是一个孤独的数据点。CNGBdb整合了全球的公开生命数据资源,覆盖母婴健康、肿瘤、动植物多样性、病原微生物等十几个研究领域,形成一个超大型的科研数据系统。
魏晓锋介绍,CNGBdb目前已经建立覆盖健康与疾病、生物多样性、微生物等领域的十大专有数据库,专精专用;支撑数十篇科研成果发表,被《Cell》《Nature Genetics 》《Nucleic Acids Research》等国际期刊引用;并通过样本信息共享平台(E-BioBank)对外共享相关信息,而且配有对应的标本照片。
可以说,CNGBdb以统一门户的形式,为用户一站式解决搜、存、算、用全部需求,且对用户免费开放,努力打造“基因界的谷歌”。
此外,依托国家基因库对生物数据的“存”、“读”、“写”联动,CNGBdb将样本元数据与生物样本甚至活体信息相关联,因此数据可以在“生物活体——生物样本——生物信息数据”全过程中进行追溯,实现综合数据的全贯穿。
魏晓锋称,从开始的“载体”到“连接”,再到最后以“平台”的形式展示,CNGBdb作为一个对外的窗口,展示了数据的可能性。另外,就服务体验而言,CNGBdb更希望做成一本字典,让所有人通过这个字典都可以方便快捷地了解到更多更丰富的信息。
未来,CNGBdb将持续促进生命大数据的共享与利用,使生物信息数据在生命科学与生物产业发展中创造更大价值。