[发明专利]一种基于遗传规划算法的增量数据挖掘方法有效
申请号: | 201410585693.5 | 申请日: | 2014-10-28 |
公开(公告)号: | CN104346448A | 公开(公告)日: | 2015-02-11 |
发明(设计)人: | 杨振庚;吴楠 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/12 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 规划 算法 增量 数据 挖掘 方法 | ||
1.一种基于遗传规划算法的增量数据挖掘方法,其特征在于,针对遗传规划算法增量数据挖掘的需求及高可读性与高分类准确度的优点,使用设计函数集并引入神经网络优化思想提取出替代交叉变异过程的全新搜索过程,设计优化算法搜索机理,实现增量数据挖掘任务;
遗传规划算法学习方法由常规初等函数、常数和变量组成的函数解析式,该解析式多阶可微,根据泰勒公式,可将其解析为形式相似的组分叠加,这样,原来的交叉变异过程简化为优化组分的系数和偏移量的过程,引入反馈网络和核函数模型,通过模型的输出结果与期望结果的偏差,反向调整叠加系数,通过逐步迭代得到预期的模型,步骤内容如下:
(1)确定输入层个数;确定中间层1的函数组成;批量样本数目N设置算法框架中的中间层2的个数;约定每次输入网络中进化的代数n;
(2)训练数据集获取,对已有类标数据样本筛选、去噪处理得到学习所需的训练数据集;
(3)随机生成中间层1与中间层2中的权重系数和偏移量;
(4)训练集中样本批量输入网络中,分别通过中间层1和中间层2的映射,最后经过投票系统得出最终分类结果;
(5)计算投票系统的输出结果与目标结果的距离 ;
(6)根据误差通过反馈网络优化网络参数;
(7)通过检查迭代次数检测优化过程是否完成,若未完成,进入步骤(4)继续优化参数;若完成则转向步骤(8);
(8)输入下一批次的样本,转向步骤(4),循环直至所有样本输入完毕;
(9)保存网络层1和网络层2的中间权重值和偏移量,核函数以及投票过程,学习过程结束;
(10)步骤(1)中所述的中间层1的函数选择,中间层2的核函数个数,按照如下方式进行:
根据泰勒公式,选取的系数和作为一般函数表达式的近似表示,在中间层1,选择此五个元素作为节点元素,中间层2的节点个数为3-5个,作为决策前的空间提升过程,核函数选择sigmoid核函数;
步骤(2)中所述的样本筛选与去噪主要滤除原始数据样本集中出现的错误数据,防止学习过程中因此产生大的偏差,同时学习模型更加有效;
步骤(3)中所述的初始系数和偏移量,按照随机生成一组位于[-10,10]的实数作为各节点的系数,随机生成一组位于[-1,1]的实数作为中间层1各节点的偏移量,节点系数和偏移量将在优化中被逐渐调整,最终达到合适的值;
步骤(4)中所述的样本输入网络,按照如下方式进行:
网络的输入层,按照样本维度的大小设计输入层节点个数,根据顺序,样本的每一维度分别输入到网络的输入层中,输入层做系数与偏移量变换,将变换结果传递给中间层1,中间层1做函数映射并根据各节点的系数和偏移量计算结果作为输出传递到中间层2,如公式(1)所示;
公式(1): ,
其中为中间层1节点的输出,为输入到节点的系数,为节点的偏移量,为网络入口数;
中间层2经过大小缩放和核函数变换,将变换后结果传递给投票系统;如公式(2)所示;
公式(2):,
其中为中间层2节点的输出,为中间层1的节点到节点的系数,为节点的偏移量,为中间层2的节点数,为中间层1的节点个数;
步骤(5)中描述的投票系统,按照如下方式进行:
投票系统根据输入值的分布,根据M个核函数节点的投票结果,选出命中类别最多的那一类作为输出结果,若各类标得票结果相同,按随机选择方式决定输出结果,决策最终的样本所属类别,计算最终类别与目标类别的误差,误差计算方法如公式(3)所示:
公式(3):,
其中,为第个样本的真实类别,为中间层2第个节点的输出;
步骤(6)中描述的根据误差调整网络参数的反馈网络,按照如下方式进行:
反馈网络的优化过程如下所示,根据中间层2的输出结果和目标值的误差,为使得优化过程能够按照梯度下降的方向进行,从而优化过程使得误差函数下降,计算中间层2的偏微分,得出其系数变化量和偏移量变化量,据此变化量更新二者的值:
反馈网络向前传递,中间层1的系数和偏移量变化按如下公式进行;
其中为优化速率,本方案中设为0.1;
步骤(7)中描述的迭代过程,按照如下所述的方式进行:
根据步骤(4)中系数与偏移量的更新方法,更新网络中的系数和偏移量,重新学习该批次样本,计算中间层2的输出与目标类别的误差,并再次进行前向反馈,如此迭代预设的n次,停止迭代过程;
在此n取值1000;
步骤(8)中描述的选择下一批次的样本,按照如下方式进行:
在本次样本集迭代终止后,网络保存个节点的参数,此时增量数据只需直接输入网络中,即实现网络对此增量样本的继续学习,学习过程从步骤(4)开始,逐层传递而后逐步回馈,迭代完成优化过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410585693.5/1.html,转载请声明来源钻瓜专利网。