[发明专利]基于不平衡分类指标与集成学习的不平衡数据分类方法在审
申请号: | 201510413029.7 | 申请日: | 2015-07-14 |
公开(公告)号: | CN104951809A | 公开(公告)日: | 2015-09-30 |
发明(设计)人: | 张向荣;焦李成;宋润青;李阳阳;白静;马文萍;侯彪;马晶晶 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;张问芬 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不平衡 分类 指标 集成 学习 数据 方法 | ||
1.基于不平衡分类指标与集成学习的不平衡数据分类方法,包括如下步骤:
(1)输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本较少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩余的样本作为测试样本,并设定最大迭代次数T;
(2)设训练样本初始权重服从均匀分布,即每一个(xi,yi)∈S,其中i=1,2,...,N,t=1,N表示训练样本的个数,S表示训练集,xi表示第i个训练样本,yi表示第i个训练样本的类别标识,Dt表示第t轮中训练样本的样本权重;
(3)根据第t轮中训练样本的样本权重Dt选取第t轮生成的弱分类器的训练样本,用选取的训练样本对支持向量机进行训练,获得第t轮生成的弱分类器ht,用弱分类器ht对所有训练样本进行分类,得到训练样本的预测类标ht(xi),其中i=1,2,...,N;
(4)计算第t轮生成的弱分类器ht在训练集上的错误率:其中,Dt(xi,yi)表示第t轮中训练样本xi的样本权重,ht(xi)表示第t轮训练后生成的弱分类器ht对第i个训练样本xi的预测类标,yi表示第i个训练样本的类别标识;
(5)将错误率εt与设定的阈值k=0.5进行比较:若εt≥k,令最大迭代次数T=t-1,转到步骤(9);若εt<k,则执行步骤(6);
(6)计算不平衡问题的评价指标G,用G优化εt,得到优化后的错误率εt*=εt×(1-G)λ,其中λ是惩罚参数;
(7)根据优化后的错误率计算第t轮生成的弱分类器ht的投票权重:
(8)计算第t+1轮中训练样本权重:其中,
(9)判断t是否达到最大迭代次数T:若t<T,则t加1,返回步骤(3);若t≥T,输出强分类器:其中,αt表示第t轮生成的弱分类器的投票权重,xj表示第j个测试样本,yj表示测试样本xj的类别标识,ht(xj)表示第t轮生成的弱分类器ht对测试样本xj的预测类标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510413029.7/1.html,转载请声明来源钻瓜专利网。