2024-11-04 117CNGBdb
为推动粤港澳大湾区人工智能产业高质量发展,5月26日,深圳报业集团在第十二届文博会AI应用生态系列活动发布会上,联合深圳市社会组织总会、深圳人工智能产业协会、国家超级计算深圳中心、深圳大学大数据系统计算技术国家工程实验室、中国联通、华为云、北大方正等30余家单位发起成立“湾区语料联盟”,将联合各方力量,共同打造高质量、多模态、标准化、安全可信的语料数据库,实现主流价值观语料数据的高效流通和开放共享。
深圳国家基因库成为“湾区语料联盟”首批成员单位,将在保障数据安全的前提下,发挥其在生命科学大数据领域的优势,推动生命科学语料数据的高水平、高质量供给,为我国人工智能发展赋能。
“湾区语料联盟”致力于促进语料资源共享与交流,将逐步推动会员单位间的数据开放、技术共研、学术交流、数据市场探索等各项合作。目标是通过联合各方力量,打造高质量、多模态、标准化、安全可信的高质量语料数据库,共建开放、包容、共享的粤港澳大湾区人工智能语料数据生态圈。
作为服务于国家战略的重大科技基础设施之一,深圳国家基因库已建成千万级样本存储能力、691万亿次/秒计算能力、Pb级数据产出能力,并在此基础上建立了综合性生命科学数据共享平台——国家基因库生命大数据平台(CNGBdb),为全球科研工作者提供生物大数据汇交管理和共享服务。截至目前CNGBdb已归档多组学数据量达17086TB,支撑全球近600个科研单位的科研数据汇交和共享。
作为国内最大的生物大数据中心之一,CNGBdb收录和整合了国家基因库及全球其他重要数据源的多领域数据资源。为了促进数据资源的转化应用,CNGBdb根据研究方向及科研热点构建了30余个科学数据库和50余个数据集。同时,自研人工智能生物信息数据搜索分析工具——BiomiGO,辅助用户通过自然语义获取所需生物数据集以及相应的可视化分析模块,系统性构建人工智能可读性数据集,助力AI驱动的生命科学研究新范式。
未来,深圳国家基因库将继续以数据安全为基本点,深度融合人工智能技术,构建高质量生命科学语料数据体系,推动生命科学领域数据合规有序流动,同时充分释放数据价值,为生命科学研究与创新注入新活力。
部分信息和图片来源于:“深圳市信息行业协会”公众号