[发明专利]基于局部均值的不平衡数据分类方法有效
申请号: | 201510523084.1 | 申请日: | 2015-08-24 |
公开(公告)号: | CN105354583B | 公开(公告)日: | 2018-08-31 |
发明(设计)人: | 刘靳;孙宽宏;姬红兵;阿鹏仁;刘艳丽;葛倩倩;王芳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 均值 不平衡 数据 分类 方法 | ||
本发明公开了一种基于局部均值的不平衡分类方法,本发明主要解决现有传统的分类算法在不平衡数据集上,对少数类的识别率低的问题。其实现步骤是:1、输入训练样本和测试样本;2、归一化处理;3、构造特征加权向量;4、获得少数类验证样本和多数类验证样本;5、获得验证测试样本集和验证训练样本集6、计算验证局部均值集;7、计算验证加权距离;8、得到验证结果;9、判断是否验证完毕;10、得到验证局部均值个数;11、计算测试样本的局部均值;12、计算加权距离;13、得到判定结果。本发明在不平衡数据集上,有效地提高了少数类样本的识别率,可应用于不平衡数据的分类和识别。
技术领域
本发明属于计算机数据处理技术领域,更进一步涉及数据分类技术领域中一种基于局部均值的不平衡数据分类方法。本发明可用于不平衡数据的分类,以提高少数类数据样本的识别率。
背景技术
不平衡数据是指训练样本数目在不同类别的分布不平衡,例如在故障检测中,通常是出现故障的样本数目较少,而正常运行的样本的数目较多,传统分类算法追求整体的识别率,自然倾向多数类样本,但实际中少数类样本才是关注的重点,因而有必要对传统分类算法调整,以提高少数类样本的识别率。不平衡分类在实际应用中广泛存在,例如缺陷检测,故障检测,医疗诊断,欺诈检测等。针对不平衡分类的算法主要包括数据层面的方法和算法层面的方法,其中算法层面的方法主要通过改进传统分类算法,可利用成熟分类算法,有充足的理论基础,分类效果较好。
南京大学提出的专利申请“一种不平衡分类方法”(申请号:201410473220.6,公开号:CN104239516A)中公开了一种将主动学习和支持向量机的相结合的不平衡数据分类方法。该方法首先计算每个数据样本到非同类样本之间的距离,以最短的距离作为它的特征,然后利用主动学习策略在训练集上进行迭代学习,每一步迭代都通过支持向量机产生一个临时分类超平面,并根据临时分类结果和样本特征更新数据集,加入分错的样本或特征较小的样本,进行下一步迭代,直到支持向量不再变化。该方法存在的不足之处是:利用主动学习进行迭代,过程比较复杂,并且容易产生过拟合现象。
西安电子科技大学提出的专利申请“不平衡数据的半监督分类方法”(申请号:CN201010530912.1,公开号:CN101980202A)中公开了一种模糊聚类和半监督学习的不平衡数据分类方法。该方法首先初始样本集和聚类中心,对样本集实施模糊聚类,根据聚类结果更新样本集,然后基于支持向量机进行自训练,根据训练结果更新样本集,再利用基于不同惩罚参数的支持向量机Biase-SVM进行分类,最后评估分类结果并输出。该方法存在的不足之处是:利用模糊聚类和支持向量机的自训练更新样本集,过程复杂度较高,同时可能会损失一部分样本信息。
Y.Mitani和Y.Hamamoto在文献“A local mean-based nonparametricClassifier” (Recognition Letters,Vol.27(10),pp.1151-1159,2006)中提出一种基于局部均值的分类方法,该方法首先计算测试样本附近的各类训练样本的局部均值,然后计算测试样本到局部均值的距离,将该测试样本以判定为局部均值最近的类别。该方法存在的不足之处是:应用于不平衡数据分类时,识别率会偏向多数类数据样本,而且对只计算单一样本数的局部均值,分类性能不稳定。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于局部均值的不平衡分类方法,以在保证多数类样本识别率的同时提高少数类样本的识别率。
实现本发明目的的具体思路是:计算不同样本数的多数类局部均值和少数类局部均值,再计算测试样本的少数类累加距离和多数类累加距离,通过比较其大小得到判定结果。
实现本发明目的的具体步骤如下:
(1)输入训练样本和测试样本:
(1a)输入一个包含两种样本数量不同类别的不平衡数据训练样本集,并将输入两种类别的样本按样本数量多少分别记作少数类样本和多数类样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510523084.1/2.html,转载请声明来源钻瓜专利网。