[发明专利]一种基于遗传算法的数据模型训练样本的选取方法在审

申请号：	201711159787.6	申请日：	2017-11-20
公开（公告）号：	CN108053032A	公开（公告）日：	2018-05-18
发明（设计）人：	吕游;黄鑫;杨婷婷;刘吉臻	申请（专利权）人：	华北电力大学
主分类号：	G06N3/12	分类号：	G06N3/12
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	巴晓艳
地址：	102206 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于遗传算法数据模型训练样本选取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于遗传算法的数据模型训练样本的选取方法，其特征在于，所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标，并将其作为适应度函数，利用遗传算法实现最佳训练样本的智能搜索，使得到的样本覆盖最大工况，构建高精度的数据模型，通过高精度的数据模型完成最佳训练样本的选取。

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

步骤1)：染色体编码及初始化：对要选取的样本序列进行二进制编码，共产生m条染色体构成种群，给定最大迭代次数为N，交叉概率pc，变异概率pm；

步骤2)确定适应度函数：考虑样本的分布距离大小和分布的均匀性，将样本选取指标进行定量化，并将其作为适应度函数；

步骤3)：染色体交叉：在m个染色体中，依次取相邻的两个染色体按交叉概率pc进行多点交叉；

步骤4)：染色体变异：在m个染色体中，对每个染色体按照变异概率pm进行多点变异；

步骤5)：染色体处理：经过步骤2)和步骤3)之后，染色体s段基因中若出现某段的b位基因解码后大于n，则用该染色体尚未包含的最优样本序号的二进制编码进行替换；最优样本的确定方法是：逐个将未包含的数据样本序号加入该染色体后，适应度函数值增量最大的样本即为最优样本；

步骤6)：染色体选择：根据步骤2)的适应度函数，计算各个染色体的适应度值，并按照轮盘赌选择新一代个体；

步骤7)：记录每代最优染色体的适应度值，然后进入步骤3)，进行下一次迭代，直至达到给定的迭代次数N。

3.根据权利要求2所述的方法，其特征在于，步骤1)中所述染色体编码的方法为若初始的运行数据中有n个样本，要选取s个样本，则每个样本的序号用b位二进制基因段来表示，将每个可行解看作一条染色体，共有s·b个基因，这里其中为向上取整函数，定义为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华北电力大学，未经华北电力大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711159787.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载