[发明专利]面向高维和不平衡数据分类的集成在审
申请号: | 201610218160.2 | 申请日: | 2016-04-08 |
公开(公告)号: | CN107273387A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 李臻 | 申请(专利权)人: | 上海市玻森数据科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海申新律师事务所31272 | 代理人: | 夏海天 |
地址: | 200000 上海市宝*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出面向高维和不平衡数据分类的集成,其特征在于,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学习的一些标准数据集作为实验数据;在预处理方法的选择上,增加了封装式(Wrapper)特征选择方法和过取样方法;从属性个数和不平衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响,采用更完备的预处理实验策略,获得了不同的结论对高维不平衡数据分类前,先减少特征再平衡数据产生的平均AUC性能更优,自动化程度强,采用不同的预处理组合策略来缓和高维和不平衡对分类的影响。 | ||
搜索关键词: | 面向 维和 不平衡 数据 分类 集成 | ||
【主权项】:
面向高维和不平衡数据分类的集成,其特征在于,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学习的一些标准数据集作为实验数据;在预处理方法的选择上,增加了封装式(Wrapper)特征选择方法和过取样方法;从属性个数和不平衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响;降维方法分为两类:特征选择和特征变换,特征选择方法依据是否独立于后续的学习算法分为过滤式(Filter)和封装式(Wrapper)两种,过滤式与后续学习算法无关,一般直接利用所有训练数据的统计性能评估特征,速度快,但评估与后续学习算法的性能偏差较大;封装式利用后续学习算法的训练准确率评估特征子集,偏差小,计算量大,不适合于大数据量,特征变换不同于特征选择之处在于其输出结果不是原有的属性,而是基于某种变换原则所产生的新属性,由于变换后的属性改变了原有属性的物理特性,同时一些特征变换方法通常针对连续属性数据,再此不考虑特征变换方法,取样方法包括两种:欠取样和过取样,预处理采用降维方法和取样方法;降维方法的评估直接依赖于数据集本身,通常认为相关性较大的特征或特征子集可获得较高的分类准确率,常见的Filter特征选择评估方法有类间距离、信息增益、关联度和不一致度等,Kohavi曾指出尽管仅考虑数据集的评估方法运行效率高,但寻找与类别相关的特征或特征子集和选择可最优化分类准确率的特征或特征子集是两个不同的问题;取样方法是一类常用的预处理技术,利用取样可以平衡数据,缓解数据中的不平衡问题,取样方法根据其取样方向可以分为两类:过取样(Over Sampling)和欠取样(Under Sampling),过取样增加小类实例,欠取样则减少大类实例,根据取样策略分为随机的和算法的两类,随机取样以随机方式删除或增加实例,而算法取样则根据一定的原则取样,如删除靠近大类边界的实例或者增加任意产生的小类实例等,通常而言,随机取样是较为常用的取样手段,而算法取样对于实例集的改变可能存在一定的导向性为简化问题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海市玻森数据科技有限公司,未经上海市玻森数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610218160.2/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置