[发明专利]一种决策树算法中连续属性离散化处理的方法和装置在审
申请号: | 201710854161.0 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107967288A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 高万林;康博涵;贾敬敦;于丽娜;陶莎;仲贞 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 王莹,李相雨 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种决策树算法中连续属性离散化处理的方法和装置,通过将样本数据集中样本数据按数值的大小排序并划分成多个区间;确定样本数据的数量小于第一预设值的第一少数样本数据区间;并通过确定与第一少数样本数据区间两端相邻的两个区间的标记相同,则将与第一少数样本数据区间两端相邻的两个区间和第一少数样本数据区间合并;在对连续属性离散化处理的过程中,将区间中样本数据的数量和区间的标记作为判断基础,合并满足条件的区间,即在尽可能的保持样本数据的较低不纯度的条件下,减少区间的总数量,一方面有利于将决策树保持在较小的规模,另一方面保证了决策树构造过程中的精度。 | ||
搜索关键词: | 一种 决策树 算法 连续 属性 离散 处理 方法 装置 | ||
【主权项】:
一种决策树算法中连续属性离散化处理的方法,其特征在于,包括:将具有连续属性的样本数据集中样本数据按数值大小排序,并将所述样本数据集划分成多个区间;根据每一区间中样本数据的类别确定每一区间的标记,区间的标记为区间中同一类别的数量最多的样本数据的类别;根据每一区间中样本数据的数量确定第一少数样本数据区间,所述第一少数样本数据区间为区间中样本数据的数量小于第一预设值的区间;确定与所述第一少数样本数据区间两端相邻的两个区间的标记相同,则将与所述第一少数样本数据区间两端相邻的两个区间和所述第一少数样本数据区间合并。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710854161.0/,转载请声明来源钻瓜专利网。