[发明专利]一种基于分层随机森林的数据特征选择方法及装置在审

申请号：	201811382019.1	申请日：	2018-11-20
公开（公告）号：	CN109543747A	公开（公告）日：	2019-03-29
发明（设计）人：	周绮凤;安超杰;倪进鑫	申请（专利权）人：	厦门大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京细软智谷知识产权代理有限责任公司 11471	代理人：	郭亚芳
地址：	361000 ***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	随机森林分层分类能力数据特征特征选择数据挖掘技术高维数据机器学习敏感属性冗余特征特征子集有效特征不均衡数据集特征集信息量
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于分层随机森林的数据特征选择方法、装置，属于机器学习与数据挖掘技术领域。该方法利用基于分层随机森林的代价敏感属性选择方法，对于信息量分布不均衡的数据集(即有效特征少，冗余特征多)，尤其是高维数据集进行特征选择，在考虑特征子集的分类能力的同时，考虑特征代价带来的影响，从而选择出既拥有较好的分类能力，又考虑了特征代价带来的影响的优秀子特征集，解决了目前现有技术中特征选择方法忽略代价的问题。

技术领域

本发明属于机器学习与数据挖掘技术领域，具体涉及一种基于分层随机森林的数据特征选择方法及装置。

背景技术

特征选择是机器学习和数据挖掘领域的关键问题之一，特征选择是从原始数据的所有特征中选出最优特征子集的过程。一个优秀的特征选择方法能够降低计算成本，提高学习器的性能，并使所构造的模型获得更佳的解释性。随着当今信息社会产生的数据量越来越大，数据的维度越来越多，对数据进行特征选择的需求也随之增长。

传统的特征选择方法可以大致分为过滤法、封装法、嵌入法三类。传统的特征选择方法主要关注特征对学习器准确率的贡献，而忽略了特征的代价所带来的影响，特征代价是现实应用中常常需要考虑的问题，比如，病人在医院做一项检查的费用便是获取该项特征的代价，医生为了能够诊断出疾病类型，通常会让病人做一系列检查，在同时能够诊断出疾病类型的情况下，一个明智的方式是选择那些费用较低的检查组合，这会有效的节约病人的成本。

发明内容

为了解决现有技术中特征选择方法忽略代价的问题，本发明提供了一种基于分层随机森林的数据特征选择方法及装置，其具有高精度、低代价等特点。

为实现以上目的，本发明采用如下技术方案：

一方面，一种基于分层随机森林的数据特征选择方法，所述方法包括：

获取待处理数据集，所述待处理数据集中的每个数据具有若干个特征；

划分类标，设置每个特征代价；计算所述待处理数据集中数据特征与类标的相关性，根据预设的阈值将所述待处理数据集划分为至少2组特征子集；

根据所述每个特征代价设置每个特征在森林生长过程中被选择的概率；

生长随机森林，根据所述概率，进行分裂，所述分裂过程中的候选特征从所述特征子集中分层抽样；

根据随机森林评价特征重要性的方式，生成特征重要性排序；

按照所述特征重要性排序的顺序，逐一向学习机器添加特征，计算相应的准确率与代价，选取达到最高准确率的特征子集。

进一步可选地，所述获取数据集中数据的获取方法为采用原始数据集或在原始数据集上随机抽取。

进一步可选地，所述划分类标，设置特征代价，包括：按照专家评估的代价设置方法进行特征代价设置。