[发明专利]一种面向多分类的不平衡数据预处理方法、装置及设备在审
申请号: | 201810599969.3 | 申请日: | 2018-06-11 |
公开(公告)号: | CN109033148A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 韩伟红;李树栋;王乐;方滨兴;贾焰;黄子中;周斌;殷丽华;田志宏 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;宋静娜 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 最终样本 数据预处理 分类标记 删除 装置及设备 分类算法 个数判断 保存 分类 复制 合成 | ||
本发明公开一种面向多分类的不平衡数据预处理方法、装置、设备,方法包括:接收最终样本集大小及样例集的不平衡比,得出每个类别的理想样例个数;根据理想样例个数和实际样例个数判断少数类样例集和多数类样例集;对少数类样例集中的样例,计算k近邻中其他类样例和少数类样例的个数,以分类标记;对少数类样例集中的样例,根据样例的标记进行删除、保存、复制或合成,得到最终少数类样例集;对多数类样例集中的样例,计算k近邻中该多数类样例和其他类样例的个数,以分类标记;对多数类样例集中的样例,根据样例的标记进行删除或保存,得到最终多数类样例集;生成最终样本集。本发明使得最终样本集能有效提高多分类算法的准确性。
技术领域
本发明涉及大数据处理领域,尤其涉及一种面向多分类的不平衡数据预处理方法、装置及设备。
背景技术
随着技术的不断进步,包括互联网速度提升、移动互联网更新换代、硬件技术不断发展、数据采集技术、存储技术、处理技术得到长足的发展,数据正以前所未有的速度增长,我们已经进入了大数据时代。大数据的数据规模巨大(volume)、产生高速(velocity)、形式多样(variety)、数据不确定(veracity)等特性使得传统的数据分析与挖掘技术在应用到大数据领域时遇到了前所未有的挑战。
数据分类是数据分析和挖掘中的基本算法,具有广泛的应用领域,也是很多其他数据分析和挖掘算法的基础。在大数据中,几乎所有的数据集都是不平衡数据,不平衡数据是指在数据集中至少有一个类别包含相对其它类别更少的样例。数据不平衡问题在现实世界中广泛存在,尤其在大数据应用领域。例如,在互联网文本分类中,各个类别的数据是不均衡的,而我们关注的往往是小类别的数据,如网络上的敏感信息,新出现的话题等;在电子商务应用中,大量的用户交易数据和行为数据都是正常的,而我们关注的往往是电子商务中的欺诈行为以及异常行为,这些数据淹没在大量的正常行为数据中,属于严重倾斜的不平衡数据集。类似的应用还有医疗诊断、卫星遥感数据分类等。因此,不平衡大数据分类是国民经济和社会发展中迫切需要解决的关键技术问题,具有广泛的应用前景。
不平衡大数据由于不同类别数据样例的数量差别过大,导致传统的分类学习算法很难取得好的分类效果,如图1所示的不平衡数据分类示例,其中圆圈为少数类样例,三角为多数类样例,不平衡比为3:1,即多数类样例为少数类样例的3倍,而在实际的大数据集中,不平衡比往往是10000:1,甚至更高,因此在进行分类之前先需要对数据进行预处理,以得到好的学习效果。
已有的不平衡大数据预处理方法主要是针对二分类算法的,即数据集中只有两个类别,多数类和少数类,在预处理中对多数类进行欠采样,针对少数类进行过采样,或者两者同时进行,缩小数据的不平衡比,进而提高分类效果。对多分类算法的不平衡大数据预处理目前缺乏相关研究,多分类算法即数据集中有多个类别,分类算法要通过训练学习,把数据分到多个类别中的一个。目前的方法是把多分类问题简化成二分类问题进行处理,即把数据集中多个类别分成多个二分类数据集,两两进行处理。
把多分类问题转化成多个二分类问题面临如下问题:
1、某一个类别的数据集在一个二分类问题中是少数类,在另一个二分类问题中可能是多数类,采用这种方法无法对其进行有效处理。如图2所示,圆圈样本集在与三角形样本集的分类中属于少数类,而在与叉形样本集的分类中属于多数类。
2、某一个样本在不同的二分类问题中可能是不同的样例类别,例如,在一个二分类中是噪音,需要删除,在另外一个二分类中是重要的边界样例,需要保留,采用已有方法无法对其进行有效处理。如图2所示,圆圈中的三角形样例在与圆圈样例的二分类问题中是噪音,需要删除;在与叉形样例的二分类中是重要的边界样例,需要保留。
总之,如果把多分类问题考虑成多个二分类问题,则对样例的处理无法综合考虑各个类别中的不同情况,无法有效提高多分类算法的精确性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810599969.3/2.html,转载请声明来源钻瓜专利网。