[发明专利]一种基于分层随机森林的数据特征选择方法及装置在审
申请号: | 201811382019.1 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109543747A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 周绮凤;安超杰;倪进鑫 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 郭亚芳 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 随机森林 分层 分类能力 数据特征 特征选择 数据挖掘技术 高维数据 机器学习 敏感属性 冗余特征 特征子集 有效特征 不均衡 数据集 特征集 信息量 | ||
本发明涉及一种基于分层随机森林的数据特征选择方法、装置,属于机器学习与数据挖掘技术领域。该方法利用基于分层随机森林的代价敏感属性选择方法,对于信息量分布不均衡的数据集(即有效特征少,冗余特征多),尤其是高维数据集进行特征选择,在考虑特征子集的分类能力的同时,考虑特征代价带来的影响,从而选择出既拥有较好的分类能力,又考虑了特征代价带来的影响的优秀子特征集,解决了目前现有技术中特征选择方法忽略代价的问题。
技术领域
本发明属于机器学习与数据挖掘技术领域,具体涉及一种基于分层随机森林的数据特征选择方法及装置。
背景技术
特征选择是机器学习和数据挖掘领域的关键问题之一,特征选择是从原始数据的所有特征中选出最优特征子集的过程。一个优秀的特征选择方法能够降低计算成本,提高学习器的性能,并使所构造的模型获得更佳的解释性。随着当今信息社会产生的数据量越来越大,数据的维度越来越多,对数据进行特征选择的需求也随之增长。
传统的特征选择方法可以大致分为过滤法、封装法、嵌入法三类。传统的特征选择方法主要关注特征对学习器准确率的贡献,而忽略了特征的代价所带来的影响,特征代价是现实应用中常常需要考虑的问题,比如,病人在医院做一项检查的费用便是获取该项特征的代价,医生为了能够诊断出疾病类型,通常会让病人做一系列检查,在同时能够诊断出疾病类型的情况下,一个明智的方式是选择那些费用较低的检查组合,这会有效的节约病人的成本。
发明内容
为了解决现有技术中特征选择方法忽略代价的问题,本发明提供了一种基于分层随机森林的数据特征选择方法及装置,其具有高精度、低代价等特点。
为实现以上目的,本发明采用如下技术方案:
一方面,一种基于分层随机森林的数据特征选择方法,所述方法包括:
获取待处理数据集,所述待处理数据集中的每个数据具有若干个特征;
划分类标,设置每个特征代价;计算所述待处理数据集中数据特征与类标的相关性,根据预设的阈值将所述待处理数据集划分为至少2组特征子集;
根据所述每个特征代价设置每个特征在森林生长过程中被选择的概率;
生长随机森林,根据所述概率,进行分裂,所述分裂过程中的候选特征从所述特征子集中分层抽样;
根据随机森林评价特征重要性的方式,生成特征重要性排序;
按照所述特征重要性排序的顺序,逐一向学习机器添加特征,计算相应的准确率与代价,选取达到最高准确率的特征子集。
进一步可选地,所述获取数据集中数据的获取方法为采用原始数据集或在原始数据集上随机抽取。
进一步可选地,所述划分类标,设置特征代价,包括:按照专家评估的代价设置方法进行特征代价设置。
进一步可选地,所述特征子集包括:强相关特征子集、弱相关特征子集。
进一步可选地,所述根据所述特征代价设置每个特征在森林生长过程中被选择的概率,包括:根据特征的代价设置概率矩阵,作为每个特征在森林生长过程中被选择的概率。
进一步可选地,所述计算所述数据集中数据特征与类标的相关性所使用的函数为非负函数。
进一步可选地,所述非负函数包括:皮尔逊(Pearson)相关系数、卡方检验(Chi-square test)。
进一步可选地,所述每个特征在森林生长过程中被选择的概率与所述每个特征代价成反比。
进一步可选地,所述根据随机森林评价特征重要性的方式,生成特征重要性排序,包括:根据所述随机森林,按照Gini不纯度特征重要性度量方式评价所有特征,产生特征重要性排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811382019.1/2.html,转载请声明来源钻瓜专利网。