数据驱动


序列/突变点 机器学习(库) 表型性状预测


表型性状预测工具




请认真阅读相关的输入文件格式要求!


其他的鉴定途径


请认真阅读相关的可上传文件格式要求!





技术背景简介


在当代的其他领域,例如科学研究,也已经渐渐步入“数据”为核心的时代,也就是第四范式——数据密集科学(Data-Intensive Science)时代。目前科学研究的发展已经走过“经验、理论、计算”三个阶段:从以观察记录的方式描述自然现象,到利用公式模型和归纳法来做科学研究,再到开始用数据来仿真和运算复杂的现象。从历史的角度上,能够被成为一个“时代”的,都有那个时代的“历史使命”。 2003年4月14日,历时13年,被誉为生命科学“登月计划”的人类基因组计划宣布顺利完成,象征着生物信息研究开始步入“大数据”和“大科学”研究时代。国际顶级期刊《Nature》和《Science》分别于2008年和2011年推出《Big Data》和《Dealing with Data》专刊,从互联网技术、环境科学、生物医学等多个领域的实际现状,系统地分析大数据对于科学研究的重要性。

生物数据分析主要是建立在组学数据分析的技术上,再通过归纳、整理基因组遗传信息、调控相关的转录组学和蛋白组学等多种数据,去分析发现与鉴定新基因、非编码区信息结构、生物进化、完整基因组的比较等等。该分析过程,除了需要管理复杂的海量生物数据和信息,还需要采用多种生物信息软件工具搭建的分析流程来完成。如今,生物应用已经走过了并行计算到网格计算,开始通过计算机技术构建生物应用的云平台,通过利用互联网即可随时随地、按需便捷访问生物共享资源池。不同于基于数学模型的传统研究方式,PB级的生物数据使我们可以脱离复杂的模型和假设就可以分析数据,将数据丢进巨大的计算机集群中,只要有相互关系的数据,统计分析算法就可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。

基于生物大数据的技术,利用2000多份谷子材料,记录了40种左右的谷子表型信息,同时通过高通量测序获得相应的基因型信息,并对相应的信息和数据进行整合处理。利用机器学习方法(包括K近邻,随机森林和支持支持向量机算法等)针对上述基因型+表型的数据建立模型。模型最终实现从品种的基因型来预测品种表型。