[发明专利]一种小样本决策树分类器构造中的连续属性分割方法有效
申请号: | 201210073278.2 | 申请日: | 2012-03-19 |
公开(公告)号: | CN102622612A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 张德贤;许伟涛;于俊伟;刘灿;王洪群;杨卫东;李保利;张苗;梁义涛;靳小波 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 陈浩 |
地址: | 450001 河南省郑州市高新技术*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 决策树 分类 构造 中的 连续 属性 分割 方法 | ||
技术领域
本发明属于决策树构造技术领域,涉及一种小样本决策树分类器构造中的连续属性分割方法。
背景技术
决策树分类器构造过程是属性选择、属性分割两种操作的迭代的过程,直至决策树的分类误差足够小。因此属性分割优化是决策树构造的关键和核心技术。属性分割可分为离散属性分割和连续属性分割,由于离散属性取有限值,若离散属性取值较少,则直接利用这些取值点进行分割,否则作为连续属性处理。因此如何处理连续属性分割问题一直是国内外共同关注的问题,也是制约所构造决策树性能的关键技术问题。
自上世纪九十年代,决策树学习一直是国内外共同关注的研究热点。经过20多年的发展,出现了一批如C4.5、CART、CHAID、SLIQ、PUBLIC等经典决策树分类器构造算法,提出了决策树分类器构造中连续属性分割等相关关键技术,有效地推动了决策树的应用,取得了显著的应用效果。深入分析现有的决策树构造方法可以看出,这些方法基本上都属于基于传统统计学的方法,属于基于经验风险最小化机器学习方法的范畴,只有在样本趋于无穷大时其性能才有理论上的保证。而在多数实际应用中,样本数目通常是有限的,这使很多方法都难于取得理想的效果。同时现有的决策树构法方法也存在有很多理论问题尚没有解决,如现有的基于信息熵、基尼系数等的连续属性分割点数与分割位置选择方法都属于经验性的,尚缺少理论依据。
目前已提出了不少连续属性分割算法,包括基于信息熵、x2分布、基尼系数等方法。由于分类面的位置与形状特征是指导属性空间合理分割的根本依据,因此尽管基于信息熵的方法以及基于x2分布分析的方法具有一定程度的应用效果,但由于它们仅仅间接反映分类超曲面的位置与形状特征,从而限制了它们应用的有效性。
发明内容
本发明的目的是提供一种小样本决策树分类器构造中的连续属性分割方法,以使决策树具有统计学习意义下的最优分类面,实现决策树性能的最优化。
本发明的小样本决策树构造的连续属性分割方法步骤如下:
(1)根据训练样本集构造SVM分类面模型;
(2)确定SVM分类面模型的边界点,根据分类面点沿SVM分类面均匀分布的原则,选择合理异类边界点对,并计算各合理异类边界点对连线上的分类面点;
(3)采用现有的属性选择方法选择优先扩展属性,若无扩展属性则结束,否则转步骤(4);
(4)根据所有分类面模型的分类面点,对于离散属性,其取值点即为分割点,转步骤(3);对于连续属性,确定连续分割点数和初始分割位置;
(5)根据所有分类面模型的分类面点,对于每个SVM分类面模型,依该模型的决策面点和决策面与分割面的逼近误差,计算属性分割面与该SVM分类面的逼近误差E(Modeli),并依或进行逼近误差E(Modeli)融合;
(6)采用带约束复合型优化方法进行连续属性分割位置优化,转步骤(3)。
进一步的,所述步骤(1)中构造SVM分类面模型的方式为:对于多分类问题的每个类别,构造该类与其它类别所组成的2分类SVM分类面模型Modeli,i=1,2,...,C,其中,C为类别数;对于2分类问题,则仅构造1个SVM分类面模型。
进一步的,所述步骤(1)中对于给定的训练样本集其中xm∈Rn为第m个样本点的属性值向量,ym∈{-1,+1}为相应的二分类类别标号,则SVM分类面模型可表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210073278.2/2.html,转载请声明来源钻瓜专利网。