农业经济作物育种方案
农业经济作物全基因组从头测序和大规模全基因组重测序
针对基因组序列未知的动植物进行全基因组从头测序,构建物种参考基因组序列。在参考基因组的基础上,进行大规模全基因组重测序,构建基因组变异图谱,从分子水平上明确农业物种多样性中心和栽培起源驯化中心,为研究农作物驯化和性状改良奠定重要的理论基础。
挖掘农业经济作物功能成分基因和遗传位点
对农业经济作物资源进行了功能成分研究,发掘与功能成分、表型相关的基因或遗传位点,阐明调控分子机理,极大地推动经济作物的品质改良,加快经济作物的遗传育种进程。实现种质+基因快速高效育种创新模式。
育种生物信息分析服务
生物信息分析技术方案
研究团队经过长期的项目研究积累,拥有丰富的项目经验,并建立了农业领域动植物研究生物信息分析技术。
标准分析包括从原始下机数据,进行比对,变异检测,对结果进行注释。
高级分析包括群体多样性分析,群体结构以及种群历史分析,全基因组关联分析、单体型图谱构建分析等。
全基因组重测序分析
分析内容
重测序,即重新测序,是对已有参考基因组的物种进行个体或群体的基因组测序,利用高性能计算平台和生物信息学方法,在全基因组水平扫描变异位点(SNP、InDel、SV、CNV),快速准确的定位差异基因,并可应用于群体遗传学研究、关联分析、进化分析等。
分析方法
-
用Bwa进行序列比对,得到的比对结果,使用Picard的Mark Duplicate工具去除重复,屏蔽PCR duplication的影响。
-
使用GATK进行变异检测(Variant Calling),主要包括SNP和InDel。
-
使用用SnpEff对变异(SNP、Small InDel)进行注释和功能影响预测。
-
使用BreakDancer进行SV结构变异的检,SV(结构变异)指基因组水平上大片段的插入、缺失、倒置、易位等
全基因组关联分析
分析内容
全基因组关联分析(Genome-wide association study,GWAS)是指借助一定的统计学方法,在全基因组范围内寻找与表型差异相关的核苷酸变异的分析方法;通过对遗传多样性丰富的自然群体的每个个体进行全基因组重测序,结合目标性状的表型数据,基于一定的统计方法进行全基因组关联分析,可以快速获得影响目标性转表型变异的染色体区段或基因位点。
分析方法
- 测序数据质控。
- 比对到参考基因组。
- 群体SNP检查及基因分型。
- 构建系统进化树。
- 群体主成分分析。
- 性状关联分析。
- 目标性状相关区域基因功能注释。
BSA性状定位
分析内容
BSA分析,即集群分离分析,它是通过具有相对性状的一对亲本杂交,在其任一分离后代群体中,根据个体表型(或基因型)的极端差异,选取一定量个体,将其DNA,RNA,SLAF-seq混合,构建两个基因池(pool).然后将混池测序数据与参考基因组的序列比对,基于检测到SNP,InDel等变异类型,寻找两混池间存在显著差异标记,利用欧氏距离,SNP-index等算法评估与性状关联的区域.并对区域内的基因进行功能注释和富集分析等等.在基础上还可以进行深入挖掘,如:引物设计,区域内基因挖掘及标记筛选等。
分析方法
- 使用bwa将序列比对到参考基因组。
- GATK软件进行样本SNP和InDel的检测,利用ANNOVAR软件对SNP和InDel检测结果进行注释。
- 子代SNP和InDel频率差异分析,寻找有显著差异的SNP和InDel位点。
- 目标性状区域定位,找到与目标性状关联的区域。
- 候选基因提取和功能注释。
转录组分析
分析内容
基于已知的基因组序列和注释信息,以新一代高通量转录组测序(RNA-Seq)数据作为输入,根据测序数据与参考基因组的序列比对,识别新的转录位点(新基因)、新的可变剪接事件,并对新旧基因进行结构分析、表达定量和差异表达分析。 内容:测序数据质量评估;测序数据与所选参考基因组的序列比对;确定外显子/内含子的边界,分析基因可变剪接情况;发掘未注释的基因区和新的转录本;识别转录区的SNP位点;修正已注释的5'和3'端基因边界;定量基因和转录本表达水平,识别不同样品(组)之间显著差异表达的基因并对其进行功能注释和富集分析。
分析方法
- 数据量、数据质量的评估。
- 使用软件TopHat2将测序Reads比对到参考基因组上。
- 使用软件Cufflinks[2]进行转录本的拼接、表达定量。通过与已知基因组注释文件的比较,识别新的转录组区域,即新基因。通过软件BLAST[3]将新基因与各数据库进行序列比对,获取新基因的注释信息。
- 基于各样品reads与参考基因组序列的TopHat2比对结果,使用软件SAMtools[4]识别测序样品与参考基因组间的单碱基错配,查找基因区潜在的SNP位点。
- 根据与基因原有的剪接模型进行比较,使用Cufflinks软件从跨内含子Reads中预测新的可变剪接事件,并用软件SpliceGrapher[5]对其进行可视化。
- 接着根据基因在不同样品中的表达水平,使用软件DESeq[6]或EBSeq[7]进行差异表达分析,并通过指标FDR和FC筛选差异表达基因。
- 最后,提取各差异表达基因集的注释信息,使用Fisher精确检验、topGO[8]等进行差异表达基因集的GO节点或KEGG通路富集分析。
更多云平台计算分析服务,请访问 生命大数据可信计算平台CODEPLOT 。 CODEPLOT一个可为用户提供可信的、灵活的计算平台,您可在没有编程背景的情况下进行自动生物信息学分析,同时,采用区块链、多方安全计算等前沿技术,确保用户的数据安全。