[发明专利]一种机器学习中基于贝叶斯不平衡度量的深度采样方法有效
申请号: | 202010805545.5 | 申请日: | 2020-08-12 |
公开(公告)号: | CN112016597B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 韩光洁;王真;刘立 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G06F18/21 | 分类号: | G06F18/21;G06F18/2415;G06N3/048 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 丁涛 |
地址: | 213022 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 学习 基于 贝叶斯 不平衡 度量 深度 采样 方法 | ||
1.一种机器学习中基于贝叶斯不平衡度量的深度采样方法,其特征在于:包括以下步骤:
(1)不平衡度计算
利用贝叶斯不平衡度量,对多组数据集中少数样本的不平衡度和数据集的不平衡度进行准确表达;
(2)最优阈值筛选
确定数据集的不平衡度后,设置多组阈值,在每组阈值下对样本不平衡度高于该阈值的样本进行过采样,通过分类算法测试各组阈值下数据集的分类性能,从而筛选出最优阈值;
(3)阈值映射学习
利用神经网络学习最优阈值与数据集不平衡度之间的映射关系,在对新数据集进行过采样时,利用该神经网络对阈值的设置进行指导;
所述步骤(1)的具体步骤如下:
(1.1)样本不平衡度计算
不平衡度包括不平衡数据集中每个少数样本受不平衡影响的程度,以及该数据集总体上受不平衡影响的程度;其中数据集的不平衡度命名为BI,样本的不平衡度命名为IBI;
对于一个给定样本,定义样本为x,样本标签为y,样本类别为c;根据贝叶斯规则,x属于c的后验概率为:
此时,最优的贝叶斯分类器决策为:
f(x)=argmax[p(y=c|x)] (2)
对于二分类问题,c的取值为+1或-1,p(x)对两个类相同,并且先验概率通常由每个类的频率估计得出,将该决策公式化为:
其中
fpositive(x)和fnegative(x)为表示后验概率的后验分数,式中Npositive和Nnegative为正负类的样本个数;当类不平衡且正类样本数远少于负类时,贝叶斯决策受先验概率中频率估计的影响,导致少数类样本容易被误分类;由此入手,设计一个不受先验概率影响的决策函数:
其中
此时的决策函数直接对比p(x|+)和p(x|-),不再受到先验中样本频率估计带来的影响,这也是类平衡时的最小化贝叶斯误差的决策函数;将样本的不平衡度IBI定义为,不平衡情况和估计平衡情况下归一化的后验概率之差:
(1.2)数据集不平衡度计算
在样本不平衡度的基础上,定义整个数据集的不平衡度BI为所有少数类样本IBI的均值:
2.根据权利要求1所述的一种机器学习中基于贝叶斯不平衡度量的深度采样方法,其特征在于:所述步骤(2)的具体步骤如下:
(2.1)采样阈值划分
首先为数据集设置一系列采样阈值:
由于BI值在(0,1)之间,也可将采样阈值设置为具体的值:
(-1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7)(10)
(2.2)数据集过采样
在每组采样阈值下,通过合成过采样算法对各组数据中超过阈值的少数样本进行过采样,使数据集恢复平衡;对不平衡度超过阈值的少数样本进行随机抽取,每次随机抽取两个样本并生成一个(0,1)的随机数d,在这两个样本连线的d位置处随机合成一个新样本,直到正负类样本达到平衡为止;
(2.3)最优阈值评估
完成阈值设置和每组数据集的再平衡后,通过分类算法求出各组平衡子集的分类性能;分类算法选取SVM;
分类性能采用G-mean作为评价指标,其是少数类和多数类正确率的几何平均数,计算方法如下:
得到各个阈值下平衡子集的分类性能后,选出其中性能最好的分类阈值,并记录对应数据集的不平衡度BI,作为步骤(3)中神经网络的输入。
3.根据权利要求2所述的一种机器学习中基于贝叶斯不平衡度量的深度采样方法,其特征在于:所述步骤(3)的具体步骤如下:
(3.1)阈值映射网络训练
将步骤(2.3)中筛选得到的最优阈值和对应的数据集不平衡度BI作为输入,利用神经网络学习两者间的深层映射关系;
(3.2)阈值映射网络应用
当获得新数据集时,使用阈值映射网络指导过采样的阈值设置,包括以下三个阶段:
1)利用贝叶斯不平衡度量,计算样本不平衡度IBI和数据集不平衡度BI;
2)将数据集不平衡度BI输入阈值映射网络,得到最优采样阈值;
3)对IBI超过该最优阈值的样本进行过采样,恢复数据集的平衡性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010805545.5/1.html,转载请声明来源钻瓜专利网。