[发明专利]一种基于遗传规划算法的增量数据挖掘方法有效
申请号: | 201410585693.5 | 申请日: | 2014-10-28 |
公开(公告)号: | CN104346448A | 公开(公告)日: | 2015-02-11 |
发明(设计)人: | 杨振庚;吴楠 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/12 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 规划 算法 增量 数据 挖掘 方法 | ||
技术领域
本发明涉及数据挖掘领域,特别是一种增量数据挖掘模型。采用样本批量学习模式,模型结合遗传规划与神经网络的优势,能够很好地实现增量数据挖掘。具体地说是一种基于遗传规划算法的增量数据挖掘方法。
背景技术
大数据时代聚集的大规模数据样本为商业模式创新和科学新发现提供可能,如何从大规模数据中发现有用的信息或资源成为大数据时代所需解决的最重要的问题,数据挖掘作为模型发现技术无疑是大数据时代中的核心技术。
在数据采样过程中,往往一定时间内采集的样本有限且局限性大,这时的学习模型往往也具有局限性。随着时间的积累,采集到的样本逐渐增加,样本覆盖范围更广泛,对应的模型也需相应的更新。传统的数据挖掘算法在解决这样的问题是,往往是基于新的样本群重新构建模型。主要原因在于此类算法需要针对数据群作为模型学习基础,数据间有很大的耦合性。而增量数据挖掘可以在原模型基础上进一步优化得到适应新样本的模型。
传统的遗传规划算法在学习过程中虽然样本间无耦合,但是因为编码方式和进化机理问题,算法解决增量数据时,无论增量数据规模大小,学习过程仍需很大的代价。且需要继续参考原样本集。这使得遗传规划算法在分类分析上的模型简单可读性高的优势被埋没。本发明利用遗传规划算法的通过重构由简单初等函数组成的函数式模型这一特点,实现算法在增量学习上的应用。
发明内容
本发明的目的是为了更好的解决增量数据挖掘中的学习能力问题。继承遗传规划算法的优势,学习过程中样本作为输入逐个处理,通过多个中间层的反馈过程,沿梯度下降方向逐步优化模型中的系数和偏移量。从而能够很好地提高学习能力提供种基于遗传规划算法的增量数据挖掘方法。
本发明的目的是按以下方式实现的,针对遗传规划算法增量数据挖掘的需求及高可读性与高分类准确度的优点,使用设计函数集并引入神经网络优化思想提取出替代交叉变异过程的全新搜索过程,设计优化算法搜索机理,实现增量数据挖掘任务;
遗传规划算法学习方法由常规初等函数、常数和变量组成的函数解析式,该解析式多阶可微,根据泰勒公式,可将其解析为形式相似的组分叠加,这样,原来的交叉变异过程简化为优化组分的系数和偏移量的过程,引入反馈网络和核函数模型,通过模型的输出结果与期望结果的偏差,反向调整叠加系数,通过逐步迭代得到预期的模型,步骤内容如下:
(1)确定输入层个数;确定中间层1的函数组成;批量样本数目N设置算法框架中的中间层2的个数;约定每次输入网络中进化的代数n;
(2)训练数据集获取,对已有类标数据样本筛选、去噪处理得到学习所需的训练数据集;
(3)随机生成中间层1与中间层2中的权重系数和偏移量;
(4)训练集中样本批量输入网络中,分别通过中间层1和中间层2的映射,最后经过投票系统得出最终分类结果;
(5)计算投票系统的输出结果与目标结果的距离;
(6)根据误差通过反馈网络优化网络参数;
(7)通过检查迭代次数检测优化过程是否完成,若未完成,进入步骤(4)继续优化参数;若完成则转向步骤(8);
(8)输入下一批次的样本,转向步骤(4),循环直至所有样本输入完毕;
(9)保存网络层1和网络层2的中间权重值和偏移量,核函数以及投票过程,学习过程结束,
(10)步骤(1)中所述的中间层1的函数选择,中间层2的核函数个数,按照如下方式进行:
根据泰勒公式,选取 的系数和作为一般函数表达式的近似表示,在中间层1,选择此五个元素作为节点元素,中间层2的节点个数为3-5个,作为决策前的空间提升过程,核函数选择sigmoid核函数;
步骤(2)中所述的样本筛选与去噪主要滤除原始数据样本集中出现的错误数据,防止学习过程中因此产生大的偏差,同时学习模型更加有效;
步骤(3)中所述的初始系数和偏移量,按照随机生成一组位于[-10,10]的实数作为各节点的系数,随机生成一组位于[-1,1]的实数作为中间层1各节点的偏移量,节点系数和偏移量将在优化中被逐渐调整,最终达到合适的值;
步骤(4)中所述的样本输入网络,按照如下方式进行:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410585693.5/2.html,转载请声明来源钻瓜专利网。