[发明专利]一种构造决策树的方法在审
申请号: | 201510628732.X | 申请日: | 2015-09-28 |
公开(公告)号: | CN105354588A | 公开(公告)日: | 2016-02-24 |
发明(设计)人: | 林昭文;陈立南;魏伟;李高超;高胜 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 钟日红;张文娟 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构造 决策树 方法 | ||
1.一种构造决策树的方法,其特征在于,基于规则空间划分的决策树算法在递归地对规则集空间进行划分以构建决策树,其中,在对所述规则集空间进行划分的过程中:
构造用于定量计算所述决策树的存储空间和/或决策子树的平衡性的评价函数;
针对当前节点确定待划分维度以及相应的待划分规则集;
对所述当前节点分别在不同的所述待划分维度上进行不同划分次数的预划分以计算获取不同的划分方式对应的所述评价函数的值;
对比所述评价函数的值以确定针对各个所述待划分维度的划分次数;
按照所述划分次数在所述待划分维度上对所述当前节点进行划分。
2.根据权利要求1所述的方法,其特征在于,在构造所述评价函数的过程中,基于所述当前节点的重复存储指标、所述当前节点的平衡性评价和/或所述当前节点的孩子节点规则数评价构造所述评价函数。
3.根据权利要求2所述的方法,其特征在于,在构造所述评价函数的过程中,根据实际需求中存储规则的存储空间占用要求、决策树的结点总数要求和/或内存查找效率要求确定所述评价函数中的所述重复存储指标、所述平衡性评价和/或所述孩子节点规则数评价的比例从而确定进行空间划分时规则重复存储率和平衡率的权重。
4.根据权利要求3所述的方法,其特征在于,所述重复存储指标表示为所述当前节点的孩子节点在相应的划分中存储规则的重复度评价值,其中,所述孩子节点的所述重复度评价值越小,所述孩子节点存储的规则的重复存储率越低。
5.根据权利要求3所述的方法,其特征在于,所述平衡性评价表示所述当前节点的孩子节点建立的子树的平衡性,所述平衡性评价对应的值越低表示对应的所述当前节点的孩子节点存储的规则数越接近,所述孩子节点建立的子树也越平衡。
6.根据权利要求3所述的方法,其特征在于,所述孩子节点规则数评价用于衡量所述决策树占用的存储空间,所述孩子节点规则数评价对应的值越小,相应的所述当前节点的孩子节点占用的存储空间越小。
7.根据权利要求1-6中任一项所述的方法,其特征在于,在对所述当前节点进行划分的过程中,根据实际需求确定所述当前节点的最大划分次数,其中,针对所述当前节点的总划分次数不能大于所述最大划分次数。
8.根据权利要求1-6中任一项所述的方法,其特征在于,采用迭代划分的方式对所述当前节点进行多个次代的所述预划分,其中:
基于特定规则分别增加所有所述待划分维度中一个所述待划分维度上的划分次数从而获取多个划分方案,每个所述划分方案中只增加一个所述待划分维度上的划分次数;
分别计算获取每个所述划分方案对应的所述评价函数的值;
对比不同的所述评价函数的值以确定当前次代中需要增加划分次数的所述待划分维度;
按照增加后的次数对所述待划分维度进行划分并以划分结果为基础进行下一次代的所述预划分。
9.根据权利要求1-6中任一项所述的方法,其特征在于,根据实际需求确定所述决策树的总规则数阈值,其中,在对所述当前节点进行划分的过程中,如果所述决策树的总规则数大于所述总规则数阈值时停止对所述当前节点进行进一步划分。
10.根据权利要求1-6中任一项所述的方法,其特征在于,根据实际需求确定所述决策树的存储空间占用阈值,在对所述当前节点进行划分的过程中,计算基于当前划分所构造的决策树占用的存储空间,当所述决策树占用的存储空间大于所述存储空间占用阈值时停止对所述当前节点进行划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510628732.X/1.html,转载请声明来源钻瓜专利网。