[发明专利]一种数据均衡化的方法、系统及设备在审
申请号: | 201910594644.0 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110298406A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 蔡延光;林枫;蔡颢 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓坤 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本集 数据均衡 非均衡 样本边界 数据集 邻域 样本 申请 计算机可读存储介质 分区 系统及设备 边界判定 边界样本 接收输入 决策空间 稀疏采样 清晰 采样 构建 收缩 挖掘 | ||
本申请公开了一种数据均衡化的方法,包括:接收输入的非均衡数据集;计算少数类样本集中每个样本的边界判定因子;通过稀疏采样策略对多数类样本集的边界集进行采样,得到新的多数类样本集;通过分区邻域插值策略进行插值,构建新的少数类样本集;将新的多数类样本集与新的少数类样本集组合,得到处理后的非均衡数据集。本申请收缩了多数类边界样本的决策空间,并使得多数类与少数类的样本边界变得更加清晰;同时通过分区邻域插值策略,使得样本边界变得更加清晰,使得非均衡数据的挖掘效果得到提升。本申请同时还提供了一种数据均衡化的系统、设备及计算机可读存储介质,具有上述有益效果。
技术领域
本申请涉及数据挖掘领域,特别涉及一种数据均衡化的方法、系统、设备及计算机可读存储介质。
背景技术
非均衡数据挖掘已成为数据分析领域的最具挑战性难题之一,实际应用中存在大量非均衡数据,比如医院的疾病患者诊断数据、网络入侵数据、电信诈骗数据等,其中的少数类样本通常蕴含着重要信息,是数据挖掘的重要目标。
目前主要从数据和算法两个层面对于非均衡数据的分类问题展开研究。在算法层面,通过优化传统分类算法或提出新的分类算法来提高模型对非均衡数据集的处理能力,比如主动学习、集成学习方法、单类学习方法、代价敏感学习等。从数据层面,指利用数据预处理算法来改善数据的均衡性从而提高模型分类能力。在数据层面上重采样技术被广泛地应用,其中比较经典的是SMOTE算法和欠采样算法。
现有的非均衡数据挖掘方法中,通常先经过K-Means方法先对训练数据进行聚类,然后按照一定的规则从各个数据簇中抽取相同数量的多数类和少数类样本,共同组成均衡的子训练集用于训练弱分类器,最终构成一个强分类器。然而,这样做容易导致重要样本信息丢失、破坏原始数据集的分布特性等问题,因而使得非均衡数据的挖掘效果不是很理想。
因此,如何提升非均衡数据的挖掘效果是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种数据均衡化的方法、系统、设备及计算机可读存储介质,用于提升非均衡数据的挖掘效果。
为解决上述技术问题,本申请提供一种数据均衡化的方法,该方法包括:
接收输入的非均衡数据集;其中,所述非均衡数据集包括多数类样本集及少数类样本集;
计算所述少数类样本集中每个样本的边界判定因子,并根据所述边界判定因子确定所述少数类样本集的边界集、所述少数类样本集的非边界集以及所述多数类样本集的边界集;
通过稀疏采样策略对所述多数类样本集的边界集进行采样,得到新的多数类样本集;
通过分区邻域插值策略分别对所述少数类样本集的边界集及所述少数类样本集的非边界集进行插值,构建新的少数类样本集;
将所述新的多数类样本集与所述新的少数类样本集组合,得到处理后的非均衡数据集。
可选的,根据所述边界判定因子确定所述少数类样本集的边界集、所述少数类样本集的非边界集以及所述多数类样本集的边界集,包括:
当所述少数类样本集中样本的边界判定因子大于阈值时,将所述样本存入所述少数类样本集的边界集中;
当所述少数类样本集中样本的边界判定因子小于或等于所述阈值时,将所述样本存入所述少数类样本集的非边界集中;
在所述多数类样本集中利用临近算法确定所述少数类样本集的边界集的最近邻样本,并将各所述最邻近样本存入所述多数类样本集的边界集中。
可选的,所述通过稀疏采样策略对所述多数类样本集的边界集进行采样,得到新的多数类样本集,包括:
根据公式计算所述多数类样本集的均值点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910594644.0/2.html,转载请声明来源钻瓜专利网。