CNGBdb支撑发表科研成果登上《Nature》封面:万种鸟类基因组计划第二阶段(科级别)最新研究进展

2020-11-13 1943CNGBdb

2020年11月12日,深圳华大生命科学研究院生物多样性团队、昆明动物研究所等单位联合在《自然》(Nature)上同期以封面形式发表了两篇文章报道万种鸟类基因组计划第二阶段(科级别)最新研究结果。研究团队发表了363种鸟类基因组数据,同时通过这一数据建立了无参考序列下多基因组比对和分析的新方法,并基于这一新方法阐明高密度物种取样对生物多样性研究的重要性,为深入了解基因组多样性演化奥秘提供了契机。

万种鸟类基因组计划第二阶段(科级别)最新研究结果-1.png

上述研究中产生的267个物种的基因组测序数据、组装数据和注释信息已保存在国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0000505

万种鸟类基因组(B10K)计划公开数据合集(含第一阶段48种鸟类基因组数据)

建立无参考序列的基因组比对算法Cactus

万种鸟类基因组计划第二阶段(科级别)最新研究结果-2.png

传统的比较基因组学分析依赖于某个基因组作为参考序列建立全基因组比对,进而开展相关的比较分析。这一方法存在两个弊端,一是因为受制于参考基因组而无法识别出其他物种特异序列或者其他物种之间的差异序列,二是因为只获取单拷贝同源区域而丢失了由分支特异复制事件所带来的一比多或多比多的同源区域。在多物种比较分析中,由于基因复制、序列丢失或获得、染色体结构变异等事件存在的情况下,如何获取更真实且全面的序列同源关系用于后续系统发生关系的解析和比较基因组学相关分析尤为关键。

针对此问题,研究团队建立了适用于多物种且无参基因组的比对算法——Cactus。该算法基于预设的物种关系树,将复杂的多序列比对问题分解到物种分支上,对每个分支上的物种开展两两比对并构建出其祖先基因组序列,而后再基于祖先序列将更多分支的物种基因组排比在一起,从而构建出无参考序列的多基因组比对信息。

万种鸟类基因组计划第二阶段(科级别)最新研究结果-3.png

这一方法成功的解决了现有多序列比对软件的弊端,也极大的提高了跨物种的比对效率,减少了由于与参考物种遗传距离差异引起的比对偏好和序列丢失。例如,363只鸟类基因组构建的全基因组比对序列总长为981Mb,比之前以鸡和斑胸草雀为参考基因组构建的48只鸟类全基因组比对序列在长度上提升了149%。深圳国家基因库张国捷教授和加州大学圣克鲁斯分校的Benedict Paten共同为文章的通讯作者。

无参基因组比较完整描绘鸟类物种谱系基因组动态演化图谱

万种鸟类基因组计划第二阶段(科级别)最新研究结果-4.png

无参的全基因组比对数据集为全面解析鸟类遗传多样性特征的演化历程和分子遗传机制提供了全新的切入点。在另外一篇文章中,研究团队借助Cactus这一算法的优势建立了更加完善的同源基因集合,还开发了一套鉴定任意演化分支特异获得和丢失序列的方法,从而完整描绘出鸟类物种谱系基因组动态演化图谱。

万种鸟类基因组计划第二阶段(科级别)最新研究结果-5.png

研究发现这些动态变化的基因组区域往往存在一些分支特异基因或调控元件,可能与物种特异性状的起源和演化有关。比如,雀形目鸟类基因组多出一个生长激素基因的拷贝。雀形目中的鸣禽丢失了Cornulin 基因,该基因所编码的蛋白主要位于食管和口腔上皮细胞,其缺失可能会引起食管上皮的粘弹性特性发生变化,进而使得食管上部直径可以产生快速变化来调整的声道,这可能与其多样化的纯音发声演化有关。

此外,研究发现基于高覆盖度的物种取样的基因组比较分析显著提高了对基因组序列保守性的检验效力,实现了在单碱基分辨度下的自然选择压力分析。相比于53个物种的比较分析,363个物种计算得到的单碱基保守位点从2.1%上升到13.2%。

“在少量物种的比较分析中,我们只能通过严格筛选演化速率近乎为0的基因组区域作为超保守区域,因此只能检测出受到强烈自然选择的基因组区域。而高覆盖度的物种比较分析可以极大提高对基因组选择压力的检测灵敏度,以鸟类现有数据来看,我们可以在低于中性演化水平50%左右的演化速率下即可检测出受到自然选择的区域。”B10K项目发起人之一、来自深圳国家基因库、深圳华大生命科学研究院和哥本哈根大学的张国捷教授强调说,“这些区域可能在演化过程中由于在某些物种分支上提供特殊适应性功能,从而受到较弱的自然选择压力。因此这些区域对揭示物种类群的分化具有重要意义。”

关于万种鸟基因组学计划

鸟类是物种最丰富的动物群体之一,它们几乎出现在世界上的每一个栖息地。它们是第五次物种大灭绝后幸存下来的唯一的恐龙谱系,在适应性大爆发后演化出超过10500个物种,展现出多样的生态、形态和行为特征。在全基因组数据中,我们不仅可以找到物种演化历程的印记,也可以基于此来预示物种的适应潜能。

万种鸟基因组学计划旨在构建所有现生约10500种鸟类的基因组图谱,该项目由深圳国家基因库、中国科学院、哥本哈根大学、史密森博物馆、深圳华大生命科学研究院以及洛克菲勒大学共同主导。

目前发表的研究成果是该计划第二阶段科级别的最新研究成果。科研团队从现存鸟类的科阶元中选取一个代表性鸟类物种,共计获得363只鸟类的全基因组数据覆盖92%的科阶元,其中267个物种的基因组数据为首次发布。

项目所使用的样品主要来源于全球多个博物馆所保存的鸟类组织样品。其中美国史密森博物馆、丹麦自然博物馆和路易斯安那州立大学自然博物馆为该项目贡献了大部分样品。这使得研究团队能够对一些稀有的和濒危的鸟类物种进行基因组测序,这将为物种保育提供重要的基因组资源。本研究中,首次发布的267个物种基因组使用华大基因自主研发的BGISEQ-500平台测序完成。

如何将数据存储至CNGBdb并完成文章发表?

CNGBdb 的数据[存]储功能由旗下的国家基因库序列归档系统(CNSA,db.cngb.org/cnsa)负责,这是国内首个实现在线批量上传和审编的组学数据归档库,可支撑全球科研成果发表。截至2020年10月27日,CNSA已支持论文发表166篇,发表期刊101个,包括Lancet、Nature、Science、Cell等。

万种鸟类基因组计划第二阶段(科级别)最新研究结果-6.png

参考文献:
[1] Armstrong, J., Hickey, G., Diekhans, M. et al. Progressive Cactus is a multiple-genome aligner for the thousand-genome era. Nature 587, 246–251 (2020). 
[2] Feng, S., Stiller, J., Deng, Y. et al. Dense sampling of bird diversity increases power of comparative genomics. Nature 587, 252–257 (2020).   
信息源于“BGI华大” 公众号,图片来源于Nature官网和参考文献。

上一篇下一篇

相关专题