[发明专利]一种随机森林模型的优化方法及系统在审
申请号: | 201310567988.5 | 申请日: | 2013-11-14 |
公开(公告)号: | CN104636814A | 公开(公告)日: | 2015-05-20 |
发明(设计)人: | 权奕铭;李俊杰;郭向林;高琴;吴胤旭 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 随机 森林 模型 优化 方法 系统 | ||
技术领域
本发明属于数据处理技术领域,尤其涉及一种随机森林模型的优化方法及系统。
背景技术
随机森林是一种有监督的集成学习分类技术,其模型由一组决策树分类器组成,所述模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果的。通过对训练样本空间和属性空间注入随机性,充分保证了每个决策树之间的独立性和差异性,很好地克服了决策树过拟合问题,同时对噪声和异常值也有较好的鲁棒性。虽然随机森林模型预测效果显著优于单个决策树,但其预测速度明显下降,随着决策树数目的增多,其预测时间也相应增加。
发明内容
本发明实施例在于提供一种随机森林模型的优化方法,以解决现有随机森林模型预测速度下降及预测时间增加的问题。
本发明实施例的第一方面,提供一种随机森林模型的优化方法,所述方法包括:
创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
本发明实施例的第二方面,提供一种随机森林模型的优化系统,所述系统包括:
直方图创建单元,用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
相似度计算单元,用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
优化单元,用于根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过创建随机森林模型的热力分布直方图、创建不同预测精度决策树的分布直方图以及采用决策树间相同属性节点的比例计算决策树间的相似度对所述随机森林模型进行决策树的删减优化,使得优化后的随机森林模型具有规模小、预测精度高及预测速度快等特点,有效提高了随机森林模型的预测效率和准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的随机森林模型优化方法的实现流程图;
图2是本发明第二实施例提供的随机森林模型优化系统的组成结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了第一实施例提供的随机森林模型优化方法的实现流程,该方法过程详述如下:
在步骤S101中,创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图。
在本实施例中,随机森林模型的热力分布直方图(Heat Map)可表示随机森林模型中决策树的密度分布情况。对随机森林模型进行分区,并构建分布网格,统计落入网格中的决策树数量,根据统计到的决策树数量通过量化得到不同颜色的热力分布直方图,通过所述热力分布直方图能清晰的显示决策树间的相似分布情况,方便实现随机森林模型的优化。
另外,利用随机森林中决策树的分类预测精度,创建所有不同精度决策树的分布直方图。可通过横轴表示决策树的精度分布,以一定的增量递增;纵轴表示某精度区间决策树的统计个数,通过不同预测精度决策树的分布直方图,可为随机森林模型优化提供以决策树预测精度优化的依据。
在步骤S102中,据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310567988.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理