[发明专利]一种基于分层随机森林的数据特征选择方法及装置在审
申请号: | 201811382019.1 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109543747A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 周绮凤;安超杰;倪进鑫 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 郭亚芳 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于分层随机森林的数据特征选择方法、装置,属于机器学习与数据挖掘技术领域。该方法利用基于分层随机森林的代价敏感属性选择方法,对于信息量分布不均衡的数据集(即有效特征少,冗余特征多),尤其是高维数据集进行特征选择,在考虑特征子集的分类能力的同时,考虑特征代价带来的影响,从而选择出既拥有较好的分类能力,又考虑了特征代价带来的影响的优秀子特征集,解决了目前现有技术中特征选择方法忽略代价的问题。 | ||
搜索关键词: | 随机森林 分层 分类能力 数据特征 特征选择 数据挖掘技术 高维数据 机器学习 敏感属性 冗余特征 特征子集 有效特征 不均衡 数据集 特征集 信息量 | ||
【主权项】:
1.一种基于分层随机森林的数据特征选择方法,其特征在于,所述方法包括:获取待处理数据集,所述待处理数据集中的每个数据具有若干个特征;划分类标,设置每个特征代价;计算所述待处理数据集中数据特征与类标的相关性,根据预设的阈值将所述待处理数据集划分为至少2组特征子集;根据所述每个特征代价设置每个特征在森林生长过程中被选择的概率;生长随机森林,根据所述概率,进行分裂,所述分裂过程中的候选特征从所述特征子集中分层抽样;根据随机森林评价特征重要性的方式,生成特征重要性排序;按照所述特征重要性排序的顺序,逐一向学习机器添加特征,计算相应的准确率与代价,选取达到最高准确率的特征子集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811382019.1/,转载请声明来源钻瓜专利网。