[发明专利]海林格距离为参考标准的过采样的方法在审

专利信息
申请号: 201910147977.9 申请日: 2019-02-28
公开(公告)号: CN109871897A 公开(公告)日: 2019-06-11
发明(设计)人: 董明刚;姜振龙;敬超 申请(专利权)人: 桂林理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 541004 广*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 样本点 距离矩阵 小类 参考点 过采样 参考标准 合成样本 技术合成 列向量 新合成 重叠问题 泛化性 拟合性 数据集 伪随机 放入
【说明书】:

发明公开了一种海林格距离为参考标准的过采样方法。伪随机选取小类中某一样本点为参考点,采用SMOTE技术合成样本点,在合成样本点过程中,计算参考点所在小类与其它类的海林格距离,形成海林格距离矩阵,计算海林格距离矩阵列向量的最小值;将每次产生的样本点单独放入小类中,计算参考点所在小类和其它类的海林格距离,形成海林格距离矩阵,计算海林格距离矩阵列向量的最小值。比较两次海林格距离的最小值,判断合成样本点的质量。本发明能提高新合成样本点的质量,避免样本点重叠问题,达到了在尽可能小的影响其它类的情况下提高新合成样本点质量的目的,适用于在特定二类和多类不平衡数据集下提高过采样技术合成的样本点的拟合性和泛化性。

技术领域

本发明涉及特定数据集下不平衡学习中过采样技术领域,具体涉及海林格距离为参考标准的过采样的方法。

背景技术

不平衡数据(Imbalance Data)即数据集类别的样本不均衡。以二分类问题为例,数据集中的多数类与少数类样本的比例大于不平衡率IR(Imbalance Ratio)时,这样的数据被称为不平衡数据。通常认为IR等于1.45或1.5的数据集为平衡的数据集。数据集的不平率例如大类样本数量有50个,小类样本数量有20个,则此时的数据即不平衡数据。

不平衡学习是在不平衡数据下对数据进行处理,使得分类预测能够得到更高的准确度。不平衡学习的方法有很多,例如,代价敏感(Cost-Sensitive)、采样方法(SamplingMethod)、集成学习(Ensemble Learning)等等。

过采样(Oversampling)是不平衡学习中采样方法的一种,过采样主要是增加少数类的样本数量。即从少数类集合中随机选取样本点为参考点,以参考点为基础合成新的样本点,将新的样本点加入小类中,使小类的数量增加。

Synthetic Minority Oversampling Technique是一种合成采样方法,简称SMOTE,它已经被证明在很多领域都比较有效。它主要是基于现存的少数类样本,计算样本特征空间之间的相似度,然后创建人工合成样本。

海林格距离(Hellinger Distance)又称Bhattacharyya distance。在概率和统计学中,Hellinger Distance被用来衡量两个概率分布之间的相似性,在不平衡学习中,海林格距离可用来衡量两个类之间的相似程度,计算得到属性的重要程度,这为实现本发明提供了可能。

发明内容

针对当前过采样技术SMOTE合成样本点会导致重叠、过度拟合和轻度泛化的问题,本发明提供海林格距离为参考标准的过采样的方法,该方法能避免样本点重叠,提高过采样技术SMOTE合成的样本点的拟合性和泛化性。

本发明思路:伪随机选取小类中某一样本点为参考点,对参考点采用SyntheticMinority Oversampling Technique技术产生新的样本点,在合成样本点过程中,计算参考点所在小类与其它类的海林格距离,形成海林格距离矩阵,计算海林格距离矩阵列向量的最小值;将每次产生的样本点单独放入小类中,再次计算参考点所在小类和其它类的海林格距离,形成海林格距离矩阵,计算海林格距离矩阵列向量的最小值。比较合成样本点前和合成样本点后的海林格距离的最小值,判断合成样本点的质量。

具体步骤为:

第1步在小类中选取参考点S,以K近邻方式,通过参考点S随机选取目标点G,其中参考点S和目标点G属于同一类别。

第2步计算与样本点S属于同一类的K近邻数量k1和与目标点G属于同一类的K近邻数量k2。其中K近邻数量Kn根据数据集情况自行确定,一般取Kn=10。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910147977.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top