[发明专利]基于局部均值的不平衡数据分类方法有效
申请号: | 201510523084.1 | 申请日: | 2015-08-24 |
公开(公告)号: | CN105354583B | 公开(公告)日: | 2018-08-31 |
发明(设计)人: | 刘靳;孙宽宏;姬红兵;阿鹏仁;刘艳丽;葛倩倩;王芳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于局部均值的不平衡分类方法,本发明主要解决现有传统的分类算法在不平衡数据集上,对少数类的识别率低的问题。其实现步骤是:1、输入训练样本和测试样本;2、归一化处理;3、构造特征加权向量;4、获得少数类验证样本和多数类验证样本;5、获得验证测试样本集和验证训练样本集6、计算验证局部均值集;7、计算验证加权距离;8、得到验证结果;9、判断是否验证完毕;10、得到验证局部均值个数;11、计算测试样本的局部均值;12、计算加权距离;13、得到判定结果。本发明在不平衡数据集上,有效地提高了少数类样本的识别率,可应用于不平衡数据的分类和识别。 | ||
搜索关键词: | 基于 局部 均值 不平衡 数据 分类 方法 | ||
【主权项】:
1.一种基于局部均值的不平衡数据分类方法,包括如下步骤:(1)输入训练样本和测试样本:(1a)输入一个包含两种样本数量不同类别的不平衡数据训练样本集,并将输入两种类别的样本按样本数量多少分别记作少数类样本和多数类样本;(1b)输入测试样本集;(2)归一化处理:采用最小‑最大Min‑Max标准化方法,对于数据训练样本集和测试样本集中的所有样本的每一维特征分量进行归一化处理,得到标准化的特征分量值;(3)构造特征加权向量:计算少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离,作为特征加权向量的每一维特征分量值,得到特征加权向量;(4)获得少数类验证样本和多数类验证样本:(4a)将少数类样本随机分为样本数一致的5份,作为5份少数类验证样本;(4b)将多数类样本随机分为样本数一致的5份,作为5份多数类验证样本;(5)获得验证测试样本集和验证训练样本集:(5a)从5份少数类验证样本中任意不重复的选择1份少数类验证样本;(5b)从5份多数类验证样本中任意不重复的选择1份多数类验证样本;(5c)将所选的1份少数类验证样本和1份多数类验证样本合并成验证测试样本集;(5d)将其余4份少数类验证样本合并成少数类验证训练样本集,其余4份多数类验证样本合并为多数类验证训练样本集;(6)获得验证局部均值集:(6a)对于验证测试样本集中每个样本创建4个集合,并初始化为空集,将其中第1个集合命名为验证少数类局部样本集,第2个集合命名为验证多数类局部样本集,第3个集合命名为验证少数类局部均值集,第4个集合命名为验证多数类局部均值集;(6b)分别计算验证测试样本集中每个样本到该样本少数类验证训练样本集和多数类验证训练样本集中每个样本的欧式距离;(6c)将验证测试样本集中,离每个样本欧式距离最短的5个少数类验证训练样本集中样本,添加到该样本的验证少数类局部样本集中,同时在少数类验证训练样本集中删除该5个样本;(6d)按照下式,计算验证测试样本集中每个样本的验证少数类局部均值:
其中,M表示验证测试样本集中每个样本的验证少数类局部均值,Z表示验证测试样本集中每个样本的验证少数类局部样本集样本数,∑表示累加操作,Pk表示验证测试样本集中每个样本的验证少数类局部样本集中第K个样本;(6e)将验证测试样本集中,离每个样本欧式距离最短的5×Sc个多数类验证训练样本集中样本,添加到该样本的验证多数类局部样本集中,同时在多数类验证训练样本集中删除该5×Sc个样本,其中,Sc表示多数类验证训练样本集样本数对少数类验证训练样本集样本数的比值;(6f)按照下式,计算验证测试样本集中每个样本的验证多数类局部均值:
其中,N表示验证测试样本集中每个样本的验证多数类局部均值,L表示验证测试样本集中每个样本的验证多数类局部样本集样本数,∑表示累加操作,Qg表示验证测试样本集中每个样本的验证多数类局部样本集中第g个样本;(6g)将得到的验证测试样本集中每个样本的验证少数类局部均值,添加到该样本的验证少数类局部均值集中;(6h)将得到的验证测试样本集中每个样本的验证多数类局部均值,添加到该样本的验证多数类局部均值集中;(6i)判断少数类验证训练样本集的样本数是否小于5,若是,则执行步骤(7),否则,执行步骤(6c);(7)计算验证加权距离:(7a)按照下式,计算验证测试样本集中每个样本到该样本验证少数类局部均值集或验证多数类局部均值集中每个样本的加权距离:
其中,r表示验证测试样本集中每个样本到该样本验证少数类局部均值集或验证多数类局部均值集中每个样本的加权距离,
表示开方操作,∑表示累加操作,f表示验证测试样本集中样本的特征维数,ut表示验证测试样本集中每个样本的第t个特征分量值,et表示验证测试样本集中每个样本每个少数类局部均值或每个多数类局部均值的第t个特征分量值,wt表示特征加权向量的第t个特征分量值;(7b)将验证测试样本集中每个样本到该样本验证少数类局部均值集中每个样本的加权距离,组成该样本的少数类加权距离集;(7c)将验证测试样本集中每个样本到该样本验证多数类局部均值集中每个样本的加权距离,组成该样本的多数类加权距离集;(8)得到验证结果集:(8a)设验证测试样本集中每个样本的少数类累加集和多数类累加集,并都初始化为空集;(8b)设验证结果集,并初始化为空集;(8c)依次将验证测试样本集中每个样本的少数类加权距离集中1个样本添加到该样本的少数类累加集中,累加该样本的少数类累加集中所有样本,得到该样本少数类累加距离;(8d)依次将验证测试样本集中每个样本的多数类加权距离集中1个样本添加到该样本的多数类累加集中,累加该样本的多数类累加集中所有样本,得到该样本多数类累加距离;(8e)将验证测试样本集中少数类累加距离大于多数类累加距离的样本作为多数类,将验证测试样本集中少数类累加距离不大于多数类累加距离的样本作为少数类,得到预测结果;(8f)根据预测结果,计算曲线下面积AUC值,将曲线下面积AUC值添加到验证结果集中;(8g)判断验证测试样本集中每个样本的少数类加权距离集样本数是否等于该样本的少数类累加集样本数,若是,则执行步骤(9),否则,执行步骤(8c);(9)判断是否验证完毕:判断是否每份少数类验证样本和多数类验证样本都合成过验证测试样本集,若是,则执行步骤(10),否则,执行步骤(5);(10)得到验证局部均值个数:(10a)将验证最大值初始化为0,验证局部均值个数初始化为1;(10b)在每个验证结果集中依次选择的1个样本,累加所选样本,得到验证值;(10c)判断验证最大值是否大于验证值,若是,则执行步骤(10d),否则,执行(10e);(10d)令验证最大值不变,令验证局部均值个数不变,执行步骤(10f);(10e)令验证最大值等于验证值,令验证局部均值个数等于本次执行次数;(10f)判断是否每个验证结果集中的所有样本都被选择过,若是,则执行步骤(11),否则,执行步骤(10b);(11)计算测试样本的局部均值:(11a)对于测试样本集中每个样本创建4个集合,并初始化为空集,将其中第1个集合命名为少数类局部样本集,第2个集合命名为多数类局部样本集,第3个集合命名为少数类局部均值集,第4个集合命名为多数类局部均值集;(11b)分别计算测试样本集中每个样本到少数类样本和多数类样本中每个样本的欧式距离;(11c)将测试样本集中,离每个样本欧式距离最短的5个少数类样本集中样本,添加到该样本的少数类局部样本集中,同时在少数类样本集中删除该5个样本;(11d)按照下式,计算测试样本集中每个样本的少数类局部均值:
其中,φ表示测试样本集中每个样本的少数类局部均值,ψ表示测试样本集中每个样本的少数类局部样本集样本数,∑表示累加操作,ελ表示测试样本集中每个样本的少数类局部样本集中第λ个样本;(11e)将测试样本集中,离每个样本欧式距离最短的5×c个多数类样本集中样本,添加到该样本的多数类局部样本集中,同时在多数类样本集中删除该5×c个样本,其中,c表示多数类样本的样本数除以少数类样本的样本数所得到的不平衡度;(11f)按照下式,计算验证测试样本集中每个样本的多数类局部均值:
其中,φ表示测试样本集中每个样本的多数类局部均值,θ表示测试样本集中每个样本的多数类局部样本集样本数,∑表示累加操作,βη表示测试样本集中每个样本的多数类局部样本集中第η个样本;(11g)将得到的测试样本集中每个样本的少数类局部均值,添加到该样本的少数类局部均值集中;(11h)将得到的测试样本集中每个样本的多数类局部均值,添加到该样本的多数类局部均值集中;(11i)判断测试样本集中每个样本的少数类局部均值集的样本数是否等于验证局部均值个数,若是,则执行步骤(12),否则,执行步骤(11c);(12)计算加权距离:(12a)按照下式,计算测试样本集中每个样本到该样本少数类局部均值集或多数类局部均值集中每个样本的加权距离:
其中,wd表示测试样本集中每个样本到该样本少数类局部均值集或多数类局部均值集中每个样本的加权距离,
表示开方操作,∑表示累加操作,f表示验证测试样本集中样本的特征维数,Laδ表示测试样本集中每个样本的第δ个特征分量值,Lbδ表示测试样本集中每个样本每个少数类局部均值或每个多数类局部均值的第δ个特征分量值,wδ表示特征加权向量的第δ个特征分量值;(12b)将测试样本集中每个样本到该样本少数类局部均值集中每个样本的加权距离组成该样本的少数类加权距离集;(12c)将测试样本集中每个样本到该样本多数类局部均值集中每个样本的加权距离组成该样本的多数类加权距离集;(13)得到测试样本集中每个样本的类别:(13a)将测试样本集中每个样本的少数类加权距离集中前Ln个样本进行累加,得到该样本的少数类累加距离,其中,Ln表示验证局部均值个数;(13b)将测试样本集中每个样本的多数类加权距离集中前Ln个样本进行累加,得到该样本的少数类累加距离,其中,Ln表示验证局部均值个数;(13c)将测试样本集中少数类累加距离大于多数类累加距离的样本判定为多数类,将测试样本集中少数类累加距离不大于多数类累加距离的样本,判定为少数类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510523084.1/,转载请声明来源钻瓜专利网。