[发明专利]一种基于信息能量的决策树学习方法在审
申请号: | 201910490258.7 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110378368A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 刘润宗 | 申请(专利权)人: | 重庆中软国际信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京中南长风知识产权代理事务所(普通合伙) 11674 | 代理人: | 郑海 |
地址: | 401334 重庆市沙坪坝区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息能量 分类规则 决策树学习 目标属性 样本分布 分类属性 高效生成 输出 分类 | ||
1.一种基于信息能量的决策树学习方法,其特征在于,从目标属性出发,依据不同属性对应的样本分布的信息能量,选择分类属性,逐一确定分类规则涉及的各属性值,以实现分类规则的高效生成。
2.根据权利要求1所述的基于信息能量的决策树学习方法,其特征在于,所述决策树学习方法包括如下步骤:
步骤1,根据目标属性创建根节点;
步骤2,根据样本分布的信息能量,选择最佳分类属性;
步骤3,根据属性值,生成分支节点;
步骤4,判断分支节点是否为叶子节点,若是,在该分支节点下生成叶子节点;若否,在该分支节点下生成子树,并返回步骤2。
3.根据权利要求2所述的基于信息能量的决策树学习方法,其特征在于,所述步骤1包括:
基于Examples,Target_attribute,Attributes,创建树的根节点。
4.根据权利要求3所述的基于信息能量的决策树学习方法,其特征在于,所述步骤2包括:
设样例总数为n,Attributes中某一属性X取值范围为xj(xj=1,…,m),目标属性T取值范围为ti(ti=1,…,tm),令Examples(ti,xj)为Examples中满足目标属性T值为ti,X属性值为xj的样例构成的子集,Eti,xj为该子集元素个数,Examples(xj)为Examples中X属性值为xj的样例构成的子集,Exj为该子集元素个数;
按属性取值个数k递增的顺序,依次考察各属性;
属性X对应的样本分布的信息能量Ex为:
上式exp表示自然指数;
设目标属性有3个取值,假设属性X取值为xj的6个样本的目标属性取值分布为2,2,2,则tm=3,Exj=6,Ex=exp(0)-1=0;若上述分布为0,0,6,则Ex=exp((22+22+42)/(6/3))-1=exp(12)-1;若上述分布为0,2,4,则Ex=exp((22+0+22)/(6/3))-1=exp(4)-1;
记EMPTYij为取值为0的Eti,xj的个数,当EMPTYij=m-1时,令A=X,直接跳至步骤3;否则最佳分类属性A=arg(max(Ex))X∈Attributes;
在每一子树Tij下生成属性A的测试结点,结点名称标记为A,记为Aij。
5.根据权利要求4所述的基于信息能量的决策树学习方法,其特征在于,所述步骤3包括:
对于A的每个可能值xi,若其对应的examples子集不为空,则在Aij下加一个新的分支结点Vij,i为目标属性T取值,j为分类属性A取值,否则不生成分支结点。
6.根据权利要求5所述的基于信息能量的决策树学习方法,其特征在于,所述步骤4包括:
设i=c,j=d即Vcd为当前测试分支结点,如果ETc,Ad=1或所有满足i<>c,j=d的Examples(Ti,Ad)都为空,而Examples(Tc,Ad)非空,则在该新分支节点下加一个叶子结点,生成一规则,否则,在分支节点Vcd下生成一子树Tcd;
令j=j+1;逐一生成待测新子树Tcd,返回步骤2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆中软国际信息技术有限公司,未经重庆中软国际信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910490258.7/1.html,转载请声明来源钻瓜专利网。