[发明专利]基于欧式距离的自适应集成的不平衡数据分类方法在审
申请号: | 201910832525.4 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110533116A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 王宾;陈东;张强;魏小鹏;周昌军 | 申请(专利权)人: | 大连大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 21235 大连智高专利事务所(特殊普通合伙) | 代理人: | 毕进<国际申请>=<国际公布>=<进入国 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基础分类 算法 动态选择 集成规则 平衡子集 数据分类 自适应 分类能力 分类样本 欧式距离 输出结果 样本分类 预测结果 周围区域 子分类器 分类器 预选择 子集 样本 多样性 筛选 输出 分类 评估 平衡 | ||
1.基于欧式距离的自适应集成的不平衡数据分类方法,其特征在于,具体包括如下步骤:
步骤一、数据预处理,得到多样性平衡子集;
步骤二、在m个平衡子集上采用同样的分类学习算法得到m个同质分类器构建候选分类器池;
步骤三、在候选分类器池中预选择基础分类器,将不具有少数类样本能力的分类器删除;
步骤四、采用动态选择算法从步骤三筛选得到的分类器池中将测试样本周围区域样本分类能力强的候选子分类器挑选出来构成基础分类器集合;
步骤五、采用一种基于距离的自适应集成规则将选择出的基础分类器集合对于测试样本的预测结果输出。
2.根据权利要求1所述基于欧式距离的自适应集成的不平衡数据分类方法,其特征在于,在步骤一中,对数据预处理:包括对训练集随机平衡获得的平衡子集,验证集以及测试集;具体步骤为:
①按照训练集Strain,验证集Sva和测试集样本Stest数量比例为a:b:c,在原始数据集中划分样本,并且保证在划分后训练集,验证集和测试集样本内的多数类与少数类的比例与原始数据集中多数类与少数类的比例保持一致;
②按照公式(1)随机指定一个随机数numrand;
numrand=Smin+rand(0,1)*(Smax-Smin) (1)
其中Smin为训练集Strain中少数类样本数量,rand(0,1)是0和1之间的随机数,Smax是训练集Strain中多数类样本数量;
③在训练集Strain多数类样本中随机拿取不放回样本直至新组成的样本达到样本数量为numrand,同时按照公式(2)对少数类样本进行过采样生成新的样本z加入少数类样本中,重复过采样直到加入后的少数类样本个数为numrand,将新组成的多数类样本和过采样后的少数类样本合并则得到一个平衡子集;
z=βp+(1-β)q(2)
其中p,q是Strain中少数类样本,β是0到1之间的随机数;
④重复步骤②和③直到获得m个平衡子集。
3.根据权利要求1所述基于欧式距离的自适应集成的不平衡数据分类方法,其特征在于,在步骤三中,需要对候选分类器池中的基础分类器预选择;具体步骤为:
①对当前在测试集Stest中待分类的样本xq,在验证集Sva中计算它的k个最近邻居,若k个最近邻居中存在不同类别的样本,则记录当前的k个邻居为ψ;若k个最近邻居中存在同一类别的样本,则进入步骤四;
②将获得的Ψ作为输入,候选分类器池中的每个基础分类器hi对于抹掉标签的Ψ预测得到输出yp;
③比较基础分类预测输出yp和真实Ψ的标签y,如果存在不能同时至少正确分类一组少数类和多数类的样本的基础分类器给予删除;删除后候选分类器中的基础分类器为n个。
4.根据权利要求1所述基于欧式距离的自适应集成的不平衡数据分类方法,其特征在于,在步骤四中,需要对预选择后的候选分类器进行动态选择,具体步骤为:
①对当前在测试集Stest中待分类的样本xq,在验证集Sva中计算它的k个最近邻居,将k个样本记为£;
②将获得的£作为输入,候选分类器池中的每个基础分类器hi对于抹掉标签的£预测得到输出yout;针对预测输出yout和真实的标签y,根据公式(3)计算每个基础分类器的能力权重:
其中I()为指示函数,θj为第j个样本类别的权值系数,θj定义如下:
③在计算完能力权重后按照数值大小排序,从n个基础分类器中取前P%构成基础分类器集合C'。
5.根据权利要求4所述基于欧式距离的自适应集成的不平衡数据分类方法,其特征在于,在步骤五中,对选择得到分类器集合C'给出对当前待分类样本的预测集成输出,具体步骤为:
①按照公式(4)和(5)分别计算出参数R1和R2
其中t为集合C'中的基础分类器数量,Pi1和Pi2分别对应于第i个分类器中对于测试样本给出的少数类和多数类的概率,Di1和Di2分别对应于测试样本到第i个基础分类器中少数类和多数类的训练样本的平均欧式距离,α是自适应参数;
在计算距离之前,需要按公式(6)对样本进行归一化:
其中为归一化后的值,xi为归一化前的值,xmax、xmin分别表示样本数据中的最大值、最小值;
②比较参数R1和R2的值,若R1>R2,则当前样本分类为少数类,反之则为多数类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910832525.4/1.html,转载请声明来源钻瓜专利网。