今年3月19日,由浙江大学主导的 海岛棉(Gossypium barbadense)和陆地棉(Gossypium hirsutum)基因组研究论文发表在 国际权威学术期刊《自然-遗传学(Nature Genetics)》,标志着我国四倍体棉花基因组学研究取得了国际领先的地位。
棉属(Gossypium)是研究多倍体的起源、进化和驯化的有力模型。含有两种四倍体栽培棉种:陆地棉(AD1)和海岛棉(AD2),起源于新大陆(the New World),各自独立进化并在不同的地理区域被驯化。驯化后陆地棉由于可高产中等品质纤维并具有广泛的种植适应性,占世界棉花年产量约90%,而海岛棉则因产高质量纤维而为特种棉纺织品的生力军。
与这两种四倍体物种的起源,物种形成和多样化相关的进化动力学的全球遗传和分子基础尚不清楚。在已发表的基因组草图中,如端粒、着丝粒和DNA重复片段富集区域通常组装质量不够理想,导致在这些区域发现更多重要基因的可能性被低估。
本项目针对这两种栽培异源四倍体物种进行高质量从头组装基因组研究,特别是在DNA重复片段富集的着丝粒区域组装方面有着显着改善。通过整合Illumina PCR-free short-read测序,10x Genomics测序,Hi-C以及光学和超密集遗传图谱的数据,从而对两种栽培的异源四倍体棉种的基因组进行从头组装,在组装的连续性和准确性上获得实质性的改进,尤其突出的是着丝粒的组装。数据产出量为:1.91TB,数据存储在CNGBdb (https://db.cngb.org/search/project/CNP0000046/)。
该研究进行了染色体水平基因组装,对海岛棉G. barbadense L. cv Hai7124 (v1.1)最终组装了 2.22 Gb基因组序列,基因组覆盖率91.4%,其连续性相比G. barbadense已发表的两个基因组草图的连续性分别高出47倍和90倍,组装片段间隙大小降低为32.46 Mb。对G. hirsutum L. acc. TM-1也进行了组装改进,总组装大小为2.30 Gb,基因组覆盖率约97.4%,与近期发表的两个基因组组装分析进行比较,其连续性增加约10至20倍。
多种作物物种中着丝粒的精细尺度遗传和物理作图仍然是一项艰巨的任务。该研究组装了在Hai7124 (v1.1)26 条染色体和TM-1 24条染色体的着丝粒区域。
该研究对TM-1(v2.1)和Hai7124(v1.1)分别预测了72,761和75,071个高可信蛋白编码基因(protein-coding genes,PCGs),其中96%具有全长转录组数据支持。TM-1和Hai7124中的5,558和5,606个基因预测为转录因子,分属于58个基因家族,分别占PCG的7.6%和7.5%。约1,460.46 Mb 和1,374.61 Mb 转座因子(transposable element,TE)序列分别占TM-1和Hai7124基因组的62.2–63.9%。TEs的主要组分为长末端重复(Gypsy long terminal repeat,LTR)逆转录元件。两个基因组中每种类型的TE差异率的分布相似。此外,预测LTR的插入时间分析结果表明,最近的LTR插入事件似乎发生在接近四倍体棉花形成时间。
该研究对多种棉花种质进行了重测序分析,结果表明,与参考基因组相比,两个四倍体棉花与它们的二倍体祖细胞具有高度共线性关系。此前已有报道部分染色体上存在易位变异,而来自Hai7124(v1.1)的总计2.2 Gb序列可定位于TM-1(v2.1)基因组上,这些数据支持海岛棉(Gossypium barbadense)和陆地棉(Gossypium hirsutum)起源于共同的异源四倍体祖先的观点。
通过进一步比较两者基因组,共鉴定了10,377个存在区域和12,903个缺失区域,这些存在/缺失突变(presence/absence variants,PAV)在基因组中非均匀分布。大量TE插入突变(如纤维特异性基因GH_A07G0437该基因的表达与合成更多纤维相关)可能与棉花驯化和多样化相关。
此外,该研究鉴定了3,905个拷贝数变异(copy number variations,CNV)。CNV中的基因显着富集于棉花参与防御反应的基因,表明这些基因与棉花对环境适应性相关。
据我们所知,这是这两种重要的异源四倍体棉种在整个基因组中的第一次比较。本研究结果有助于阐明棉花基因组的进化及其驯化历史。不仅可以使棉花育种提高纤维产量和质量,对不断变化的生产环境条件的适应能力,并有助于其他作物更好地了解其驯化历史和改良用途。
拓展补充: 2007年12月,中国农业科学院棉花研究所联合国内外优势科研单位,率先在国际上牵头启动了棉花基因组计划(Cotton Genome Project,CGP)。 2012年8月,雷蒙德氏棉(D基因组)全基因组图谱绘制完成。 2014年4月,亚洲棉(A基因组)全基因组测序完成工作。 2015年4月,在上述工作的基础上,完成了四倍体棉花(AD基因组)基因组的测序、组装及分析工作。