[发明专利]一种基于加权决策树的优化随机森林分类方法及系统在审
申请号: | 201710961077.9 | 申请日: | 2017-10-13 |
公开(公告)号: | CN107766883A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 陈靓影;徐如意;刘乐元;张坤 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉东喻专利代理事务所(普通合伙)42224 | 代理人: | 方可 |
地址: | 430079 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 决策树 优化 随机 森林 分类 方法 系统 | ||
技术领域
本发明属于模式识别和数据挖掘技术领域,具体涉及一种基于加权决策树的优化随机森林分类方法。
背景技术
随着信息技术高速发展,各领域内的数据量呈现爆炸式增长,世界已然进入大数据时代。为了从海量的数据中发现蕴含其中的有价值信息,数据挖掘技术成为当下最活跃的研究领域之一。所谓数据挖掘,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
随机森林是数据挖掘中最具研究价值的方法之一,作为一种组合分类器,它的主要思想是基于两个随机过程,即训练样本随机抽取和特征集随机抽取来构建多棵相对独立的决策树分类器,然后通过所有决策树投票获得最终的预测结果。
随机森林由于其泛化能力强,不宜出现过拟合;决策树之间相互独立,适宜并行计算;无需额外的特征选择,处理高维、大数据能力强;相较于其他算法实现简单、效率高、准确率高;以及特征贡献度可评估等优点,被广泛应用于遥感探测、人机交互、多媒体处理、电子商务等领域。
尽管随机森林具有上述优点,仍然存在一些不足之处。传统随机森林模型对具有不同泛化能力的决策树拥有相同的投票权重,这影响了模型整体分类能力的稳定性。
发明内容
针对现有技术存在的问题和改进需求,本发明提供了一种基于加权决策树的随机森林分类方法及系统,利用训练样本的统计特性或决策树的分类性能来分配决策树的权重,并引入半投票机制加速分类决策进程,能有效提高分类性能和分类效率。
一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分,
所述离线训练部分包括以下步骤:
(S1)重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
(S2)在每一训练集中,提取每个样本的特征向量和标签向量;
(S3)利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
(S4)对每一训练集,分别将其所有样本的同一特征构成特征向量,计算该特征向量与该训练集的标签向量之间的统计相关性,对所有特征对应的统计相关性进行叠加,叠加结果即为该训练集训练得到的决策树的投票权重;
所述在线分类部分包括以下步骤:
(T1)按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块,其特征在于:
所述离线训练模块包括以:
训练子集提取子模块,用于重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
特征标签提取子模块,用于在每一训练集中,提取每一样本提取特征向量和标签向量;
决策树训练子模块,用于利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
投票权重计算子模块,用于对每一训练集,分别将其所有样本的同一特征构成特征向量,计算该特征向量与该训练集的标签向量之间的统计相关性,对所有特征对应的统计相关性进行叠加,叠加结果即为该训练子集训练得到的决策树的投票权重;
所述在线分类模块,用于按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分,其特征在于:
所述离线训练部分包括以下步骤:
(S1)重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
(S2)在每一训练集中,提取每个样本的特征向量和标签向量;
(S3)利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
(S4)将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能,得到各决策树的投票权重:S+为决策树利用袋外数据预测正确的样本数量,S表示袋外数据的样本总量,αo为决策树的归一化因子;
所述在线分类部分包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710961077.9/2.html,转载请声明来源钻瓜专利网。