[发明专利]基于不平衡分类指标与集成学习的不平衡数据分类方法在审
申请号: | 201510413029.7 | 申请日: | 2015-07-14 |
公开(公告)号: | CN104951809A | 公开(公告)日: | 2015-09-30 |
发明(设计)人: | 张向荣;焦李成;宋润青;李阳阳;白静;马文萍;侯彪;马晶晶 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;张问芬 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于不平衡分类指标与集成学习的不平衡数据分类方法,主要解决现有技术在不平衡数据上少数类分类精度低的问题。其实现步骤为:(1)选定训练集和测试集;(2)初始化训练样本权重;(3)根据训练样本权重选取部分训练样本对弱分类器进行训练,并用训练好的弱分类器对所有训练样本进行分类;(4)计算弱分类器在训练集上的分类错误率,将错误率与设定的阈值进行比较,并优化错误率;(5)根据错误率计算弱分类器投票权重,并更新训练样本权重;(6)判断弱分类器的训练是否达到最大迭代次数,若达到最大迭代次数,根据弱分类器及其投票权重计算强分类器;否则,返回(3)。本发明提高了少数类的分类精度,可用于不平衡数据的分类。 | ||
搜索关键词: | 基于 不平衡 分类 指标 集成 学习 数据 方法 | ||
【主权项】:
基于不平衡分类指标与集成学习的不平衡数据分类方法,包括如下步骤:(1)输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本较少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩余的样本作为测试样本,并设定最大迭代次数T;(2)设训练样本初始权重服从均匀分布,即每一个(xi,yi)∈S,
其中i=1,2,...,N,t=1,N表示训练样本的个数,S表示训练集,xi表示第i个训练样本,yi表示第i个训练样本的类别标识,Dt表示第t轮中训练样本的样本权重;(3)根据第t轮中训练样本的样本权重Dt选取第t轮生成的弱分类器的训练样本,用选取的训练样本对支持向量机进行训练,获得第t轮生成的弱分类器ht,用弱分类器ht对所有训练样本进行分类,得到训练样本的预测类标ht(xi),其中i=1,2,...,N;(4)计算第t轮生成的弱分类器ht在训练集上的错误率:
其中,Dt(xi,yi)表示第t轮中训练样本xi的样本权重,ht(xi)表示第t轮训练后生成的弱分类器ht对第i个训练样本xi的预测类标,yi表示第i个训练样本的类别标识;(5)将错误率εt与设定的阈值k=0.5进行比较:若εt≥k,令最大迭代次数T=t‑1,转到步骤(9);若εt<k,则执行步骤(6);(6)计算不平衡问题的评价指标G,用G优化εt,得到优化后的错误率εt*=εt×(1‑G)λ,其中λ是惩罚参数;(7)根据优化后的错误率
计算第t轮生成的弱分类器ht的投票权重:![]()
(8)计算第t+1轮中训练样本权重:
其中,![]()
为中间变量,式中Dt(xi)表示第t轮中训练样本xi的样本权重,αt表示第t轮生成的弱分类器的投票权重,ht(xi)表示第t轮训练后生成的弱分类器ht对训练样本xi的预测类标,yi表示第i个训练样本xi的类别标识,N表示训练样本的个数;(9)判断t是否达到最大迭代次数T:若t<T,则t加1,返回步骤(3);若t≥T,输出强分类器:
其中,αt表示第t轮生成的弱分类器的投票权重,xj表示第j个测试样本,yj表示测试样本xj的类别标识,ht(xj)表示第t轮生成的弱分类器ht对测试样本xj的预测类标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510413029.7/,转载请声明来源钻瓜专利网。