[发明专利]面向高维和不平衡数据分类的集成在审
申请号: | 201610218160.2 | 申请日: | 2016-04-08 |
公开(公告)号: | CN107273387A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 李臻 | 申请(专利权)人: | 上海市玻森数据科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海申新律师事务所31272 | 代理人: | 夏海天 |
地址: | 200000 上海市宝*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 维和 不平衡 数据 分类 集成 | ||
1.面向高维和不平衡数据分类的集成,其特征在于,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学习的一些标准数据集作为实验数据;在预处理方法的选择上,增加了封装式(Wrapper)特征选择方法和过取样方法;从属性个数和不平衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响;
降维方法分为两类:特征选择和特征变换,特征选择方法依据是否独立于后续的学习算法分为过滤式(Filter)和封装式(Wrapper)两种,过滤式与后续学习算法无关,一般直接利用所有训练数据的统计性能评估特征,速度快,但评估与后续学习算法的性能偏差较大;封装式利用后续学习算法的训练准确率评估特征子集,偏差小,计算量大,不适合于大数据量,特征变换不同于特征选择之处在于其输出结果不是原有的属性,而是基于某种变换原则所产生的新属性,由于变换后的属性改变了原有属性的物理特性,同时一些特征变换方法通常针对连续属性数据,再此不考虑特征变换方法,取样方法包括两种:欠取样和过取样,预处理采用降维方法和取样方法;
降维方法的评估直接依赖于数据集本身,通常认为相关性较大的特征或特征子集可获得较高的分类准确率,常见的Filter特征选择评估方法有类间距离、信息增益、关联度和不一致度等,Kohavi曾指出尽管仅考虑数据集的评估方法运行效率高,但寻找与类别相关的特征或特征子集和选择可最优化分类准确率的特征或特征子集是两个不同的问题;
取样方法是一类常用的预处理技术,利用取样可以平衡数据,缓解数据中的不平衡问题,取样方法根据其取样方向可以分为两类:过取样(Over Sampling)和欠取样(Under Sampling),过取样增加小类实例,欠取样则减少大类实例,根据取样策略分为随机的和算法的两类,随机取样以随机方式删除或增加实例,而算法取样则根据一定的原则取样,如删除靠近大类边界的实例或者增加任意产生的小类实例等,通常而言,随机取样是较为常用的取样手段,而算法取样对于实例集的改变可能存在一定的导向性为简化问题。
2.根据权利要求1所述的面向高维和不平衡数据分类的集成,其特征在于,降维方法关注特征选择与取样的组合实验效果,因此基于简化原则,选择简单、通用且高效的算法,Filter特征选择算法中选择信息增益特征选择 算法和Relief算法,选择前者的原因在于后续分类算法拟定采用决策树算法,而信息增益本身就是决策树属性选择的方法;后者则是因为Relief算法是目前比较公认的效果较好的Filter特征选择算法,Wrapper算法拟定选择不同的搜索策略构造不同算法,由于Kohavi的实验研究显示最佳优先搜索优于贪心搜索(爬山法)方式,在此选择最佳优先搜索方式,另外,随机搜索可以提供更为准确的搜索结果,在此同时考虑采用基本遗传算法的遗传搜索方式;
信息增益是信息增益是机器学习和信息理论中常用的一种度量方法,在进行类别预测时,已知特征的取值,IG可以度量有关类预测所需要的信息位数,信息增益可被定义为先验不确定性与期望的后验不确定性之间的差异,计算给定属性X关于类属性Y的IG,需要已知两个信息:类标号Y本身取值的不确定性和考虑属性X时的不确定性,这两个不确定性可以分别表示为Y的熵H(Y)和条件熵H(Y|X);
其中r表示属性X的取值个数,特征X的IG可定义为:
IG(X)=H(Y)-H(Y|X)
H(Y)表示不考虑特征X时,Y属性的纯度,而H(Y|X)表示考虑了特征X后,Y属性的纯度,若考虑X属性后,使得Y属性的划分更纯的话,则认为此特征属性能够有效区分类别,熵值越小,而纯度越高,也即应该选择最大信息增益的属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海市玻森数据科技有限公司,未经上海市玻森数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610218160.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置