[发明专利]一种基于信息能量的决策树学习方法在审
申请号: | 201910490258.7 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110378368A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 刘润宗 | 申请(专利权)人: | 重庆中软国际信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京中南长风知识产权代理事务所(普通合伙) 11674 | 代理人: | 郑海 |
地址: | 401334 重庆市沙坪坝区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息能量 分类规则 决策树学习 目标属性 样本分布 分类属性 高效生成 输出 分类 | ||
本发明涉及一种基于信息能量的决策树学习方法,该方法从目标属性出发,依据不同属性对应的样本分布的信息能量,选择分类属性,逐一确定分类规则涉及的各属性值,以实现分类规则的高效生成。本发明直接从目标属性出发,并且直接依据不同属性对应的样本分布的信息能量进行分类,从而具有更好的时间性能,可以更快速的输出分类规则。
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种基于信息能量的决策树学习方法。
背景技术
决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值函数的方法,具有很好的健壮性,能够学习析取表达式。
目前决策树学习算法的优化研究主要集中在算法最后生成的树的结构上,即主要解决如下三个问题:(1)生成最少数目的叶子;(2)生成的每个叶子深度最少;(3)生成决策树的叶子最少且每个叶子深度最少。
现有技术中常用的ID3算法是第一种决策树算法,其他常用的C4.5算法和商业版的C5.0算法等均源于它。ID3算法利用信息熵实现决策树“自底向上”的生成过程,即ID3决策树是自底向上的基于信息熵生成分类规则,输出分类规则的速度较慢,因此,具有较差的时间性能。
发明内容
本发明的目的是提供一种基于信息能量的决策树学习方法,利用信息能量(样本分布偏置能量)实现决策树“自顶向下”的生成过程,即从目标函数出发的生成过程,可以更快的输出分类规则。
本发明提供了一种基于信息能量的决策树学习方法,即从目标属性出发,依据不同属性对应的样本分布的信息能量,选择分类属性,逐一确定分类规则涉及的各属性值,以实现分类规则的高效生成。
进一步地,该决策树学习方法包括如下步骤:
步骤1,根据目标属性创建根节点;
步骤2,根据样本分布的信息能量,选择最佳分类属性;
步骤3,根据属性值,生成分支节点;
步骤4,判断分支节点是否为叶子节点,若是,在该分支节点下生成叶子节点;若否,在该分支节点下生成子树,并返回步骤2。
进一步地,步骤1包括:
基于Examples,Target_attribute,Attributes,创建树的根节点。
进一步地,步骤2包括:
设样例总数为n,Attributes中某一属性X取值范围为xj(xj=1,…,m),目标属性T取值范围为ti(ti=1,…,tm),令Examples(ti,xj)为Examples中满足目标属性T值为ti,X属性值为xj的样例构成的子集,Eti,xj为该子集元素个数,Examples(xj)为Examples中X属性值为xj的样例构成的子集,Exj为该子集元素个数;
按属性取值个数k递增的顺序,依次考察各属性;
属性X对应的样本分布的信息能量Ex为:
上式exp表示自然指数;
设目标属性有3个取值,假设属性X取值为xj的6个样本的目标属性取值分布为2,2,2,则tm=3,Exj=6,Ex=exp(0)-1=0;若上述分布为0,0,6,则Ex=exp((22+22+42)/(6/3))-1=exp(12)-1;若上述分布为0,2,4,则Ex=exp((22+0+22)/(6/3))-1=exp(4)-1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆中软国际信息技术有限公司,未经重庆中软国际信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910490258.7/2.html,转载请声明来源钻瓜专利网。