[发明专利]面向高维和不平衡数据分类的集成在审

专利信息
申请号: 201610218160.2 申请日: 2016-04-08
公开(公告)号: CN107273387A 公开(公告)日: 2017-10-20
发明(设计)人: 李臻 申请(专利权)人: 上海市玻森数据科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海申新律师事务所31272 代理人: 夏海天
地址: 200000 上海市宝*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 维和 不平衡 数据 分类 集成
【说明书】:

技术领域

发明涉及数据处理领域,尤其涉及面向高维和不平衡数据分类的集成。

背景技术

数据挖掘研究正面临各种数据问题的挑战,不同特性的数据增加了算法研究的复杂度。其中,对具有高维和不平衡特性的数据分类是近年的研究焦点。现有方法仅考虑了高维或不平衡的某一特性,但大量现实数据却同时展现了双重特性。在分类具有双重特性的数据时,单独针对高维或不平衡数据的分类算法面临性能瓶颈。如何有效分类高维且不平衡的数据是应用研究亟需解决的问题。分类高维不平衡数据的方法有两种:预处理(特征选择和取样)再分类和直接分类。预处理后的数据可以直接用于已有分类算法,但数据损失了部分特征和实例信息,预处理的效果将影响分类性能。直接分类可以保留全部数据信息,但分类算法必须兼顾考虑高维和不平衡特性,增加了设计的复杂度。本文从这两个方面展开研究,针对预处理高维且不平衡数据时,先特征选择还是先取样问题,通过实验对比获得特征选择先于取样。

更优的结论;针对先特征选择面临的数据不平衡问题,提出了不平衡数据特征选择算法BRFVS;针对预处理数据可能导致特征或实例的损失问题,在基于特征的集成学习框架下,从随机方式(随机森林)和选择方式(集成特征选择)两个方面提出了代价敏感随机森林算法CSRF和基于集成特征选择的分类算法IEFS。本文所做具体工作如下:

1)对比特征选择和取样顺序对分类性能的影响。在特定领域(软件缺陷检测)的实验研究结果显示,先取样再特征选择后的分类效果更优。由于实验数据单一,该结论不具有普及性。而在多个其他领域的验证研究显示,特征选择和取样的顺序并不是影响分类性能的关键因素。但因为引入了人为噪声因素,该结论不适用于无噪声的情况。本文从UCI数据集中,按照应用领域、维数和不平衡程度筛选了12个实验数据集。以AUC为评价标准,测试了过滤式和封装式特征选择方法与取样方法组合预处理后对分类性能的影响。不 同于上述结论,先特征选择再取样的平均AUC性能在12个数据集上的表现优于先取样再特征选择。该结论可为预处理高维不平衡数据提供实践指导。

2)提出不平衡特征选择算法BRFVS。目前针对不平衡数据特征选择的算法相对较少。

已有的EFSBS算法属于过滤式方法,没有充分利用分类算法的反馈;PREE算法尽管利用了分类的性能反馈,但不能处理离散型特征。BRFVS是一个既能处理离散型,又能处理连续型特征,同时能充分利用分类算法反馈的特征选择算法。BRFVS借鉴了随机森林算法的思想,采用欠取样产生多个平衡数据集,在各数据集上利用随机森林变量选择方法计算特征重要性度量值。最终的度量值通过对各数据集的度量值加权求和获得。数据集的权重由其与集成预测的一致性程度决定。实验对比了随机森林超参数K的取值对算法性能的影响,结果显示,当K取值为M时,采用BRFVS特征选择后再取样的分类性能优于普通特征选择后再取样的分类性能。进一步验证了先特征选择后取样更优的实验结论。提出代价敏感随机森林算法CSRF。尽管直接分类可不受预处理性能的影响,但已有的高维数据分类算法不能有效分类不平衡数据,而不平衡数据分类算法未考虑数据展现高维特性的情况。CSRF在随机森林的决策树属性分裂度量中引入测试代价和误分类代价,这两种代价分别相关于小类数据,通过整对小类的关注度提高对小类的正确识别率。实验对比了CSRF算法、原始随机森林算法和仅引入误分类代价的随机森林算法。CSRF在AUC性能,尤其是小类的正确识别率上有明显优势,同时,CSRF算法的分类性能也明显高于预处理后再分类的分类性能。

4)提出基于集成特征选择的高维不平衡数据分类算法IEFS。已有集成特征选择算法的目标函数仅考虑多样性和准确性的加权求和,未考虑不平衡特性,不适用于不平衡数据分类。IEFS算法选择Kohavi-Wolpert方差作为多样性度量方法,在其中引入奖惩因子增加对小类的关注,并采用爬山法搜索解空间,可兼顾考虑多样性、准确性和不平衡性。实验结果显示,此方法在AUC分类性能上略差于CSRF分类算法,但是其在AUC分类性能和小类的识别上明显高于C4.5和随机森林算法。尽管先特征选择面临数据不平衡问题,但不论是采用BRFVS算法还是普通特征选择算法,先预处理高维问题再 处理不平衡问题的方式将产生更优的分类性能。直接分类与预处理再分类的性能对比显示,直接分类方法在AUC和小类正确识别率上优于预处理方法,但时间代价更大,适用于离线处理方式。IEFS算法由于受到搜索方法的局限性,展现的性能则略差于CSRF算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海市玻森数据科技有限公司,未经上海市玻森数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610218160.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top