数据驱动

序列/突变点机器学习（库）表型性状预测

表型性状预测工具

选择框

输入框

其他的鉴定途径

上传文件

突变点位置	碱基改变	染色体	关联性状	已发现的其他位点
4242	T / A	1	粟黑病	链接
43242	A / G	2	粟黑病	链接

技术背景简介

在当代的其他领域，例如科学研究，也已经渐渐步入“数据”为核心的时代，也就是第四范式——数据密集科学（Data-Intensive Science）时代。目前科学研究的发展已经走过“经验、理论、计算”三个阶段：从以观察记录的方式描述自然现象，到利用公式模型和归纳法来做科学研究，再到开始用数据来仿真和运算复杂的现象。从历史的角度上，能够被成为一个“时代”的，都有那个时代的“历史使命”。 2003年4月14日，历时13年，被誉为生命科学“登月计划”的人类基因组计划宣布顺利完成，象征着生物信息研究开始步入“大数据”和“大科学”研究时代。国际顶级期刊《Nature》和《Science》分别于2008年和2011年推出《Big Data》和《Dealing with Data》专刊，从互联网技术、环境科学、生物医学等多个领域的实际现状，系统地分析大数据对于科学研究的重要性。

生物数据分析主要是建立在组学数据分析的技术上，再通过归纳、整理基因组遗传信息、调控相关的转录组学和蛋白组学等多种数据，去分析发现与鉴定新基因、非编码区信息结构、生物进化、完整基因组的比较等等。该分析过程，除了需要管理复杂的海量生物数据和信息，还需要采用多种生物信息软件工具搭建的分析流程来完成。如今，生物应用已经走过了并行计算到网格计算，开始通过计算机技术构建生物应用的云平台，通过利用互联网即可随时随地、按需便捷访问生物共享资源池。不同于基于数学模型的传统研究方式，PB级的生物数据使我们可以脱离复杂的模型和假设就可以分析数据，将数据丢进巨大的计算机集群中，只要有相互关系的数据，统计分析算法就可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。

基于生物大数据的技术，利用2000多份谷子材料，记录了40种左右的谷子表型信息，同时通过高通量测序获得相应的基因型信息，并对相应的信息和数据进行整合处理。利用机器学习方法（包括K近邻，随机森林和支持支持向量机算法等）针对上述基因型+表型的数据建立模型。模型最终实现从品种的基因型来预测品种表型。

性状预测流程

数据驱动

序列/突变点 机器学习（库） 表型性状预测

表型性状预测工具

技术背景简介

序列/突变点机器学习（库）表型性状预测