2024-04-08 78CNGBdb
作物基因组学在过去十年中发展迅速,从多组学研究中产生了大量的组学数据。如何利用积累的数据成为作物科学的一个关键而迫切的需求。
生菜(Lactuca sativa L.)属菊科莴苣属植物,是全球排名第三的叶菜类作物,营养价值丰富,富含多种维生素及膳食纤维。近年来,随着测序技术和生物信息学工具的不断进步,生菜研究领域积累了大量基因组、转录组、变异组、表型组、微生物组和时空组等多组学数据。建立综合性数据库平台,整合并挖掘生菜的多维组学数据将极大促进生菜的遗传育种研究。
2024年4月1日,由深圳国家基因库和华大生命科学研究院共同研发的栽培生菜综合数据库(LettuceDB)在《Database》在线发表,作为整合多组学数据的尝试,LettuceDB旨在汇集栽培和近缘野生生菜种质的多维数据,在未来成为生菜研究和育种的一站式平台。
LettuceDB是用于生菜研究和育种的多组学数据库。其整合了来自全球445份生菜的多组学数据,包括基因组、变异组、表型组、微生物组和时空组。基于基因组浏览器(JBrowse),LettuceDB实现了全基因组关联分析(GWAS)的实时交互展示,打通了基因组、表型组和变异组之间的壁垒,并为科研用户部署了丰富的生物信息学工具包。LettuceDB为栽培生菜提供了一个种质信息和多组学数据的综合平台,有助于研究者更好地获取公共数据,并在科研和育种中加以利用。
LettuceDB包括6个交互模块: 种质资源(Gemplasm)、基因组(Genome)、变异组(Variome)、表型组(Phenome)、微生物组(Microbiome)和时空组(Spatial Omics)。各个模块均有交互式图表和独立的搜索栏,并提供了与其他模块之间互动链接的综合关联结果。
LettuceDB还将多组学数据整合到基因组浏览器JBrowse中,该浏览器提供参考序列、注释、群体分析和重要农艺性状的全基因组关联分析结果。工具页面(Tools)提供了大量生物信息学工具,包括BLAST、LiftOver、Selective test和GWAS Single-Trait。
种质模块提供了此前研究中公布的 445 个生菜的综合种质信息。通过种质资源的全球分布地图,用户可以直观地了解各个国家的种质资源分布情况并进行交互。同时,表格浏览器提供了详细的种质资源信息,用户可以通过限定条件(如NGB编号、物种信息、地理信息等)对种质进行检索。此外,用户只需点击每个种质的NGB编号,即可快速跳转至相应种质的详细信息界面,包括passport信息、表型信息和病理信息。点击CNSA编号可跳转至样品及测序数据的详细信息界面。
基因组模块提供了一个浏览和查询基因的界面,并提供了两个版本(即Lsat_Salinas_v8 和 v11)用于栽培生菜的基因注释,可以从下拉菜单中选择。表格浏览器提供了基因的ID、坐标和简要描述,用户可以对感兴趣的基因进行全局搜索,通过点击ID进一步访问该基因的详细信息。
变异组模块提供了基于两个版本参考基因组检测的变异信息。用户可以通过交互式主成分分析和群体结构图来探究种质的遗传关系和群体结构。表格浏览器展示了每个种质的NGB编号、物种名、类型、品种名以及各染色体上的变异位点数目。用户可以通过指定条件对样品进行筛选。通过点击NGB编号,用户可以跳转至种质的详细信息页面;而通过点击变异位点数目,用户可以跳转至JBrowse中相应位置进行可视化浏览。
表型组模块为研究者提供了表型资源的灵活检索方法和直观分类显示。其包括37个农艺性状的5419条记录,分为种子、种植、植株、茎、叶、花和62个抗病性状。旭日图可与表格浏览器进行联动以便用户更好地浏览和筛选感兴趣的表型。通过点击旭日图中的特定类别或表型,可以对该类别或表型对信息进行筛选,而筛选后的相应种质的相关表型信息将会在表格浏览器中同步展示。此外,该模块还为用户提供了全局搜索功能,使用户能够快速查找特定的表型信息。除了浏览表型信息,该模块还支持用户还可以通过点击NGB号来跳转到种质的详细信息页面。
微生物组模块可以直观方便地了解与生菜种质相关的根际微生物群。可通过可交互条形图直观查看,还提供了一个表格浏览器,使用关键词可搜索特定物种类别及其在每个样本中的相应丰度信息。
时空组模块收集生菜叶片的单细胞和空间转录组数据。可以选择页面工具可视化浏览相关数据。
除了六个模块外,开发团队还结合了常用的JBrowse、BLAST、LiftOver、Selective test和GWAS Single Trait,以促进科学研究。在基因组浏览器JBrowse中,显示了基因功能、遗传变异和关联信号,以便于直观理解。
为了证明多组学数据的用途,开发团队用之前发表的参与叶片发育的KN1基因在LettuceDB 中进行了分析。通过BLASTN利用KN1编码序列检索了生菜参考基因组,发现相应的Lsat_1_v5_gn_7_15020基因区含有16个 SNPs,其中1个位于2-kb上游区域,11个位于2-kb下游区域。为了研究KN1在栽培和野生生菜中的遗传多样性,开发团队利用来自 332 个L. sativa和L. serriola的28 个SNP构建了一个单倍型网络,其发现大多数栽培生菜与 7 个L.serriola接种品种具有相同的单倍型KN1Hap01,这些品种分别来自伊拉克、以色列和罗马尼亚。这一结果表明,现代栽培品种中普遍存在的KN1等位基因很可能是从驯化中心附近的祖先野生品系中遗传下来的。
LettuceDB的未来发展方向将主要围绕持续整合新生成的组学数据,以及为科研人员开发用户友好型生物信息学工具。利用基于人工智能的方法对这些数据集进行深度挖掘提供有价值的见解。
可通过如下链接免费访问LettuceDB:https://db.cngb.org/lettuce/.
LettuceDB由CNGBdb团队开发及维护,使用过程中遇到任何问题或有意见建议均可通过以下方式反馈给我们:
使用CNGBdb官网反馈按钮:访问官网(https://db.cngb.org/)→ 点击首页右侧反馈按钮 → 填写意见和邮箱 → 提交
> 发送意见至邮箱:CNGBdb@cngb.org> 本文留言区留言
参考文献
Wenhui Zhou, Tao Yang, Liucui Zeng, Jing Chen, Yayu Wang, Xing Guo, Lijin You, Yiqun Liu, Wensi Du, Fan Yang, Cong Hua, Jia Cai, Theo van Hintum, Huan Liu, Ying Gu, Xiaofeng Wei, Tong Wei, LettuceDB: an integrated multi-omics database for cultivated lettuce, Database, Volume 2024, 2024, baae018, https://doi.org/10.1093/database/baae018