科普

厉害了!来CNGBdb数据广场,轻松三步DIY个人专属数据集

2019-08-05 330CNGBdb

亲,听说你缺数据?
国家基因库生命大数据平台(CNGBdb)了解一下:
这里整合了来自全球的公开数据资源为不同科研领域打造了十大专有数据库
而且,我们刚上线了一项巨好用的功能——CNGBdb数据广场


轻松三步DIY个人专属数据集_1

数据广场汇集着CNGBdb团队甄选的大型专业数据集,从万种植物到千种昆虫,从万种鸟到千种鱼,从疾病到肠道菌群……广泛覆盖各大研究领域;从项目、数据、样本到人员,一线贯穿,环环相扣。

数据集的使用,小伙伴们已经驾轻就熟了,暂且按下不表。今天小编要隆重安利一波CNGBdb最近新点的技能树——数据集DIY。

想想看,在数据广场圈块地,动动手把零散的数据建成数据集,好处不要太多:项目数据在线管理,so easy;解锁云端“收藏夹”,优质数据都到碗里来;数据展示,反手一个链接搞定,随手晒项目成果,深藏功与名;让“闲置”资源流动起来,合作机会看到你!

这功能看上去有点硬核,会不会很复杂?其实并不,新手也能1秒get!可以说,只要有数据——公开的公共数据也行,你就成功了99%。在着手完成剩下的1%之前,先来CNGBdb数据广场上,看一下咱们要创建的数据集长啥样——

给优质数据发张“专辑”

路线导航:CNGBdb首页->【数据资源】->【数据广场】

轻松三步DIY个人专属数据集_2

数据广场设有植物、动物、疾病、微生物、其他五个类别。一个数据集可大可小,小的可以是“单曲”,大的可以将多个项目组合成“专辑”,比如“植物”下面的“万种植物基因组项目(10KP)”数据集,就是一个典型的例子。

跟小编上次介绍的“千种植物(1KP)数据库”相比,2017年启动的10KP更为宏伟,计划在2022年之前完成10,000种植物的测序研究。为了让阶段性成果尽早惠及生物界,项目发起者——深圳华大生命科学研究院的科研团队,便在CNGBdb上建立了10KP数据集,持续添砖加瓦,现已发布了小麦、被子植物、牡丹、银杏、苦瓜、玉米、野蕉等13个子项目的数据。

点进去可以看到,数据集简介、项目信息、测序/组装数据、下载链接等排列井然。此外,还能看到创建者的联系邮箱,方便寻求合作机会。

轻松三步DIY个人专属数据集_3

细心的你一定留意到页面左侧的“数据集导航”和“物种树”了。“数据集导航”类似于目录,是一部可以直达数据集内各 “楼层”(项目)的“电梯”。

而“物种树”就像“任意门”了,它按照物种分类,将数据集中已有的物种悉数列出,标明样本数量。点击一个物种,就会直达测序和组装数据详情。如果数据已公开,可以直接点击下载,若否,得先到国家基因库数据受控中心(CDA)申请授权。

三步DIY,平地起高楼

接下来,我们来讲讲怎么用代码画物种树……

不不不,上面这些功能看似复杂,但并不需要手动搭建,系统会贴心地自动生成。创建自己的数据集,只用三步:
① 把数据上传到CNGBdb旗下的国家基因库核酸序列归档库CNSA(如已上传或者用公开数据,请跳过);
② 点击【创建数据集】按钮,填写相关信息;
③ 等待审核通过。Done!下面是动手时间:

上传数据

路线导航:CNGBdb首页->【CNSA】/【提交】->【提交入口】

轻松三步DIY个人专属数据集_4

进入CNSA后,从“项目”、“样本”和“组装”中选择一个入口,按界面提示,填写相关信息、上传文件。样本和组装文件可以批量上传,轻松快捷。

轻松三步DIY个人专属数据集_5

注:数据广场的数据集都是公开的,上传数据时记着设置元数据公开喔!上传完成后,系统会分配一个以CNP/CNS/CNA开头的编号,记下备用。如果数据已经上传到CNSA了,或者使用CNGBdb项目库、样本库、组装库中现有的公开数据,则无需上传,用现成的编号即可。

创建数据集

路线导航:
1. 右上角【我的CNGBdb】->【个人中心】->【我的数据集】->【新建数据集】
2. CNGBdb首页->【数据资源】->【数据广场】->任一数据集详情->【新数据集】

我们以CNGBdb上公开的“瑞丽植物园数字化项目”为例,尝试用它创建一个数据集。如下图,按照界面指示,选择数据集分类,并在框内填入数据集的标题、描述、访问编号。

轻松三步DIY个人专属数据集_6

“访问编号”即刚才记下的以CNP/CNS/CNA开头的号码,代表将加入数据集的项目、样本或组装,系统会按照编号自动将数据读取过来。

一次可添加一个编号,如果想添加多个,可以在提交之后,再对数据集进行更新(见下文)。

填写完成后,点击提交,将自动进入审核环节。

数据集审核

路线导航: 右上角【我的CNGBdb】->【个人中心】->【我的数据集】

提交完成的数据集会显示在【个人中心】,点击【查看】按钮可查看审核状态。

轻松三步DIY个人专属数据集_7

点击左边的编号,即可预览数据集详情:

轻松三步DIY个人专属数据集_8

由于引用的项目已经公开,项目的全部信息、相关链接和物种树都清晰地呈现在数据集中。

不过,刚才创建时填写的数据集标题、描述和评论,却暂未显示。CNGBdb的审编专家会对这些内容进行审核,必要时进行编辑和完善,通过之后才会完全显示出来。

如需继续添加其他数据,点击右上角的【更新数据集】按钮,填写要添加的项目/样本/组装编号,提交即可。

轻松三步DIY个人专属数据集_9

通过审核的数据集,将在数据广场上公开展示。

就这样,轻松三步,一个自己专属的数据集就建成啦!是不是超简单?

用数据集来整理、维护和共享数据,形式更专业、使用更简便、更新更快捷,数据的安全性也能得到有力保障。对于自家的数据,它提供专业可靠的展示平台;对于公开数据,它可以充当云端收藏夹,将搜集到的高质量数据“收纳”起来,方便后续使用。

CNGBdb团队还将为数据集添加比对、可信计算等功能,敬请期待。如果使用过程中遇到问题,或者有任何意见、建议,欢迎在下方留言,或者通过以下方式联系我们:

  • 邮箱:CNGBdb@cngb.org 
  • 电话: 0755-3394 5586

上一篇下一篇

相关专题