[发明专利]用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用有效
申请号: | 201080029509.9 | 申请日: | 2010-06-03 |
公开(公告)号: | CN102473247B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | D.卡拉维洛;R.帕特尔;R.佩 | 申请(专利权)人: | 陶氏益农公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 北京市嘉元知识产权代理事务所(特殊普通合伙)11484 | 代理人: | 张永新 |
地址: | 美国印*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 包含 分子 遗传 标志 植物 动物 数据 集中 挖掘 关联 规则 继而 利用 这些 创建 | ||
优先权声明
本申请基于2009年6月30日在美国专利和商标局提交的临时申请61/221,804要求优先权,在此将其全部公开内容引入作为参考。
技术领域
本公开涉及一种或多种关联规则挖掘算法(association rule mining algorithm)的用途,用于挖掘含有由至少一种基于植物或动物的分子遗传标志物创建的特征的数据集(data set),发现关联规则,以及利用由这些关联规则创建的特征用于分类或预测。
背景技术
植物和动物改良的一个主要目标是获得新的栽培种,该新的栽培种在所期望的目标特征方面优异,所期望的目标特征例如产率、谷物油含量(grain oil content)、疾病抗性以及对非生物胁迫的抗性。
传统的植物和动物改良的方法是基于动物或植物的表型,或它们的后代的表型来选择单个的植物或动物。随后,可以对选择的个体进行,例如进一步测试或使其成为未来世代的亲本。对于一些育种项目在产生针对特定个体的表型之前或当针对该个体仅获得了少量表型记录时拥有对其特性的预测是有益的。
仅倚靠表型选择的植物和动物改良方法的一些关键限制在于成本和产生这些数据的速度,并且环境(例如,温度、管理、土壤条件、日光、灌溉条件)对于目标特征的表达存在强烈影响。
近来,分子遗传标志物的发展开启了在使用植物或动物的表型、环境信息和其它类型的特征之外,使用植物或动物的基于DNA的特征来完成多种任务的可能性。
针对这种类型的数据集的数据分析方法的一些重要的考虑在于挖掘历史数据的能力,对于多重共线性具有鲁棒性(to be robust to multicollinearity)的能力,以及说明(account for)包括在这些数据集中的特征之间的相互作用(例如,受环境相互作用影响的基因型和上位效应(epistatic effect))的能力。挖掘历史数据的能力避免了对用于数据分析的高度结构化数据(highly structured data)的需求。需要来自有计划的实验的高度结构化数据的方法通常在人力资源、经费和时间方面是资源密集型的。在经济上重要的植物和动物中大量最为重要的性状的表达受到强烈的环境影响,这要求这样的实验是大型的、经谨慎设计并且受到谨慎控制的。多重共线性限制是指如下情况:其中两种或更多种特征(或特征子集(feature subset))彼此成线性关系。多重共线性可能会导致精确性较低的评价,该评价是对于特征(或特征子集)对目标特征的影响的评价,并且从而导致有偏向的预测。
基于挖掘关联规则的框架(framework)并利用由这些规则创建的特征来改善预测或分类对于解决上述三方面的考虑是适当的。用于分类或预测的优选方法是机器学习方法(machine learning method)。因此,可以将关联规则用于对一个或多个目标特征的分类或预测。
在本公开中描述的方法是倚靠执行一种或多种基于机器学习的关联规则挖掘算法来挖掘含有至少一种植物或动物分子遗传标志物的数据集,基于所发现的关联规则来创建特征,并使用这些特征用于目标特征的分类或预测。
发明内容
在实施方式中,公开如下方法:所述方法挖掘含有由至少一种基于植物的分子遗传标志物创建的特征的数据集以发现至少一种关联规则,以及随后使用由这些关联规则创建的特征来进行分类或预测。这些方法中的一些适合用于以含有植物和动物特征的数据集来进行的分类或预测。
在实施方式中,挖掘具有由至少一种基于植物的分子遗传标志物创建的至少一种特征的数据集,以发现至少一种关联规则,并利用由这些关联规则创建的特征来分类或预测一种或多种目标特征的步骤包括:
(a)探测关联规则;
(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;
(c)使用至少一种利用步骤(b)中创建的特征而创建的特征,针对一种或多种目标特征的模型开发(model development);
(d)从数据集中的特征中选择特征的子集;以及
(e)使用自组织映射(self-organizing maps)(参见Teuvo Kohonen(2000),Self-Organizing Map,Springer,第三版),从空间和时间的关联探测关联规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陶氏益农公司,未经陶氏益农公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080029509.9/2.html,转载请声明来源钻瓜专利网。