[发明专利]处理数据类别不均衡的方法、装置、电子设备及存储介质有效

专利信息
申请号: 202110263551.7 申请日: 2021-03-11
公开(公告)号: CN112633426B 公开(公告)日: 2021-06-15
发明(设计)人: 刘志煌 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N20/10
代理公司: 北京励诚知识产权代理有限公司 11647 代理人: 赵爽
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 处理 数据 类别 均衡 方法 装置 电子设备 存储 介质
【说明书】:

本申请提供了一种处理数据类别不均衡的方法、装置、电子设备及存储介质。涉及云技术的大数据处理领域。本申请基于少数类样本Xi与Xi的每一个近邻样本之间的互信息确定M个最近邻样本;基于Xi与Xij(near)之间的互信息确定Xij(near)的互信息权重;基于Xij(near)的类型和Xij(near)的互信息权重确定Xij(near)的权重Wij(near);基于Wij(near)和类别不均衡倍率N确定Xi与Xij(near)之间待插入的少数类样本的数量Nj;在Xi与Xij(near)之间插入Nj个新样本。通过融合互信息和SMOTE的方式处理数据类别不均衡问题,能够提升SMOTE的分类性能。

技术领域

本申请实施例涉及云技术领域,尤其涉及云技术的大数据处理领域,并且更具体地,涉及处理数据类别不均衡的方法、装置、电子设备及存储介质。

背景技术

数据类别不均衡问题是常见的影响分类模型性能的问题。

目前,应用广泛的解决数据不均衡问题的方法为合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)。不同于一般的过采样技术,SMOTE新增加的少数类样本不是通过重复采样得到,而是在两个少数类样之间通过插值的方式合成一个新样本,即在少数类分布边界内增加新的样本,并将新样本添加到少数类别中,从而达到类均衡的效果。新插值产生的样本一定程度服从原始数据分布,并且产生更多的少数类信息,提高了模型的泛化能力。

但是,SMOTE是在两个同类别的样本之间合成新样本,插值后少数类样本点密度在小范围内急剧加大,且扩充样本集合时,没有改变少数类样本的分布特征,没有考虑多数类的近邻样本信息,对分类边界的影响较小,一方面容易导致样本重叠的问题;另一方面导致一些分类器的效果没有提升,例如支持向量机 (Support Vector Machine,SVM),该分类器本身以最小化几何间隔作为损失函数来进行优化。由于少数类别的边界没有发生变化,基于SMOTE合成新的少数类样本后,支持向量的位置不发生偏移。

因此,有待进一步改进利用SMOTE解决数据不均衡问题的方案。

发明内容

本申请提供了一种处理数据类别不均衡的方法、装置、电子设备及存储介质,对利用SMOTE解决数据不均衡问题的方案进行了改进,能够提升SMOTE的分类性能。

一方面,本申请提供了一种处理数据类别不均衡的方法,该方法包括:

基于训练集中的第i个少数类样本Xi与该Xi的K个最近邻样本中的每一个近邻样本之间的互信息,在该K个最近邻样本中确定M个最近邻样本;其中,0<i≤T;该T表征该训练集中少数类样本的数量;

基于该Xi与该M个最近邻样本中的第j个最近邻样本Xij(near)之间的互信息,确定该Xij(near)的互信息权重,0<j≤M;

基于该Xij(near)的类型和该Xij(near)的互信息权重,确定该Xij(near)的权重Wij(near)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110263551.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top