2021-05-21 3407CNGBdb
2021年5月20日晚间,中科院植物所景海春课题组、澳大利亚昆士兰大学与华大基因等机构的研究者在Nature Plants上在线发表了题为“Extensive variation within the pan-genome of cultivated and wild sorghum”的文章。该研究构建了世界上首个高粱泛基因组,揭示了高粱一级基因库资源广泛的遗传多样性,为高粱驯化研究和育种应用打下了坚实的基础。
此项研究的测序和组装数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号:CNP0001440。
高粱是一种适应性强且兼具多用途的粮食作物,它既是非洲和亚洲约5亿人口的主粮,同时又是广泛应用的能源、饲草,以及酿造行业的工业原料。高粱于距今6000年左右起源于非洲,其驯化模式有别于玉米水稻等主要禾本科作物,有多个驯化中心,驯化和散播过程中伴随着复杂的种间杂交和多种野生种质资源渗入事件,这使得高粱群体的遗传背景更加复杂,其在驯化过程中的瓶颈效应不明显。对高粱的组学和育种研究,一直滞后于其它主要作物,自2009年第一个高粱参考基因组发表以来,还一直没有具有广泛代表性的高粱泛基因组发表,本研究填补了这个空白。
研究人员使用短读长、长读长、Hi-C、转录组等多种组学技术,结合生物信息学方法,对13个包含拟高粱、野生高粱和栽培高粱的品种进行了De novo拼接,加上之前已发表的3个栽培高粱参考基因组,构建了具有广泛代表性的高粱泛基因组。基因组组装Contig N50最高达到3.48 Mb。基于序列的泛基因组分析表明,高粱泛基因组大小为954.8 Mb,比已发表的高粱参考基因组(BTx623, 732.2 Mb)大30%,其中核心基因组序列占比62%,非核心基因组序列占比38%。对各个品种的基因组进行注释得到的基因数目范围为31898-37512个,共包含4万多个基因家族。野生高粱比栽培高粱含有更多的特有基因,该泛基因组的发表极大地丰富了高粱的基因资源库。
通过基于基因的泛基因组分析,发现核心基因占比36%,非核心基因占比64%。与核心基因相比,非核心基因的核苷酸多态性以及Ka/Ks值更高,可能说明核心基因比非核心基因更保守。而大部分的核心基因比非核心基因具有更高的表达,可能说明核心基因在功能上更加重要。通过GO富集也发现,核心基因中富集在一些基础的关键的生物学过程,如籽粒发育、叶片发育、细胞分化、RNA加工等。而非核心基因中富集在一些可能跟抗逆以及适应性相关的生物学过程,如酰胺代谢过程、次生代谢过程及氨基酸转运等。
进一步,研究人员以BTx623为参考基因组,通过与其它高粱基因组比对得到了高精度的群体遗传变异图谱,共包含15,293,465 个SNP,个体包含的Indel数目约在30万至150万之间。相对于参考基因组,其它高粱个体基因组中有429至1118个基因存在拷贝数变异(CNV)。此外发现,不同高粱个体基因组上存在大量的存在缺失变异(PAV),影响的基因组范围从13.3 Mb到102.4 Mb。这些结果表明高粱个体之间的遗传多样性非常丰富,有利于野生高粱资源的开发和利用,是未来高粱组学和育种研究的重点。
为考察大片段结构变异对农艺性状的影响,研究人员又利用839个栽培高粱品种的全基因组变异数据,对高粱籽粒颜色表型进行了全基因组关联分析(GWAS)。在显著关联到的控制籽粒颜色的Yellow seed1基因上,结合泛基因组数据,可以识别到3216bp的PAV。另外一个GWAS识别到的候选基因SbRC,是控制水稻粒色的基因Rc的同源基因,其在泛基因组中也存在416 bp的PAV。这些PAV均对基因结构产生了功能性的影响,从而改变了相关农艺性状。高粱泛基因组的构建,为这种将重要农艺性状GWAS与大片段结构变异相结合的方法提供了基础,有望加速高粱功能基因组学和育种应用的研究。
昆士兰大学陶永富老师、中科院植物所罗洪老师以及华大基因信息分析高级工程师徐加豹为论文共同第一作者,中科院植物所景海春研究员与昆士兰大学David Jordan教授以及Emma Mace教授为论文共同通讯作者。该研究得到了国家重点研发和中科院先导专项等项目的资助。
参考文献
Tao, Y., Luo, H., Xu, J. et al. Extensive variation within the pan-genome of cultivated and wild sorghum. Nat. Plants (2021). https://doi.org/10.1038/s41477-021-00925-x
信息来源:“华大科技BGITech”公众号
图片源于Nature Plants官网和“华大科技BGITech”公众号。