[发明专利]面向情报大数据的决策树增量学习方法在审

专利信息
申请号: 201710259763.1 申请日: 2017-04-19
公开(公告)号: CN107194468A 公开(公告)日: 2017-09-22
发明(设计)人: 周连科;宋奎勇;何鸣;王红滨;王念滨;孙静;王瑛琦;朱洪瑞;苏畅;张海斌 申请(专利权)人: 哈尔滨工程大学
主分类号: G06N99/00 分类号: G06N99/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 情报 数据 决策树 增量 学习方法
【说明书】:

技术领域

发明涉及的是一种决策树增量学习方法。

背景技术

随着数据库技术的迅速发展,商业情报数据量也正快速增加。这些数据中包含很多尚不为人所知的信息,如果把这些信息挖掘出来,那么对于人们的工作和生活都会很有帮助。因此,为了能够使用这些隐含在数据中的信息,就需要对数据进行一些分析处理。数据中锁定了大量的知识,也就是那些有可能很重要,然而还没有被提取出来的知识。目前的各种数据库可以实现数据操作的常用功能,但是却无法识别这些数据之间是否有关联以及存在什么样的规律,没有办法依据现在的数据估测以后的动态。正是因为这个原因,就会出现一种看似不太符合常理的情况,也就是数据量很大但是发现不了有价值信息导致知识贫乏。为了解决这种矛盾,怎样快速并且高效的从大量数据中发现有用的知识以及信息,自然就成为一种需求,数据挖掘就是为了满足该需求而出现的。数据挖掘作为发现大数据中隐藏的知识以及信息的分析方法,已成为了很多学者研究的热点。

机器学习可以将知识和信息从数据中发现并抽取出来,为了便于进行理解及使用,采用的表达方式往往也是比较简单的,是数据挖掘的技术基础。这些待提取的信息,往往不是那么容易就可以得到的,需要先取得数据,然后从中找到可能有价值的信息。数据挖掘可以找到新规律,提高人们对大量源数据的理解、认识和应用。数据挖掘不仅可以学到已经存在的知识,而且可以提炼那些还没有被找出的知识,然后用方便人们理解的方式进行保存,以便后续使用。自从开始机器学习的研究以来,人们根据学习的不同模式提出了多种机器学习算法,比如决策树算法、神经网络、遗传算法等。其中比较常用并且发展比较成熟的算法已经被应用在实际系统中和智能计算机的设计以及实现中。由于平时生活的需要,数据挖掘的发展成为了一种必然。

最开始出现的决策树算法一般都是不适用于增量的,典型代表有ID3以及C4.5算法,随着数据量的迅速增加,利用传统的算法思想就会使得整个过程非常耗时,难以接受,所以后期就出现了很多决策树增量学习算法,比如ID5R等。这些决策树算法在构建决策树的过程中,从某个结点分出的分支数目是与分类属性的属性值种类数完全对应的,如果一直采用这种方式分裂决策树,就会造成决策树有可能过于庞大,从而导致决策树在实际应用中的使用受到限制,而且过多的分支也有可能出现过度拟合现象,降低分类准确率。

发明内容

本发明的目的在于提供一种能防止决策树过于庞大,使得增量学习速度更快,效率更高的面向情报大数据的决策树增量学习方法。

本发明的目的是这样实现的:

步骤一、结点n0作为决策树T的根结点,计算n0的结点分裂度量值SC(n0),如果n0是可分结点,那么将n0放入待分裂结点集合Q中;

步骤二、如果决策树T中叶子结点的个数小于限定的最大叶子结点数并且待分裂结点集合Q非空,对于待分裂结点集合Q中的所有结点重复执行步骤三到步骤六的操作;

步骤三、从待分裂结点集合Q中,挑选具有最大分裂度量值的结点nb,并且将结点nb从待分裂结点集合Q中删去;

步骤四、分裂结点nb,并且计算分裂结点nb时产生的两个子节点的结点分裂度量值;

步骤五、对于分裂结点nb时产生的两个子结点中的任意一个子结点,如果该子结点是可以继续分裂的,就将其放入待分裂结点集合Q中;

步骤六、分裂结点nb之后,如果决策树T的叶子结点的个数等于限定的最大叶子结点数或者待分裂结点集合Q为空,那么就完成分裂过程并将待分裂结点集合Q中所有的结点定义为叶子结点;

步骤七、根据构建的决策树,利用改进的IID5R算法进行增量学习,从而生成最终的决策树。

本发明提出了一种二分决策树的方法,用来防止决策树过于庞大,以便更好地应用于实际生活决策中,而且也提出了一种何时增量即增量时机的方法,使得增量学习速度更快,效率更高。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710259763.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top