[发明专利]一种不均衡数据下最优化学习样本合成算法选择及参数确定方法有效
申请号: | 201910187920.1 | 申请日: | 2019-03-13 |
公开(公告)号: | CN110021426B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 许金山;卢炎培 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;A61B5/00 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 均衡 数据 优化 学习 样本 合成 算法 选择 参数 确定 方法 | ||
1.一种不均衡疾病数据下最优化学习样本合成算法选择及参数确定方法,其特征在于,所述方法包括以下步骤:
S1、计算疾病数据样本原始均衡度以最终需要达到的样本均衡度α计算合成采样样本数N=(α-α1)·(#of Majority Smaples),α∈[α1,∞],利用SMOTE和ADASYN采样方法合成N个新样本;
S2、在不同均衡度α下,计算各个特征xi对样本分类的区分能力计算方程为:
其中,分别表示特征i的平均值,多数类样本的特征均值及少数类样本特征均值,xk,i+,xk,i-分别表示少数类和多数类中的第k个样本的i特征值;
S3、根据步骤S2中所求得的每个单一特征区分度利用随机森林算法计算出的特征权重,计算特征的总体区分度Fscore
其中,wi是利用随机森林算法计算得到的每个特征的权重,n为样本特征的个数;
S4、对于不同合成采样算法下得到的特征总体区分度值Fscore,其值越高,表明合成样本数据越有利用样本分类,即通过Escore确定合成采样算法;
S5、构造激活函数CMin(α)和CMaj(α),表征样本量对少数类和多数类的作用力,同时引入初始样本数均衡度α1来描述原有样本在类间的分布对分类结果的影响:
其中,α为经过合成采样后少数类样本数与多数类样本数间的比值,α1表示样本均的初始衡度,由函数定义可知,当α<<1时,即训练样本多数类样本占主导,对少数类样本 的区分能力最小,对多数类样本的区分能力最大,当α>>1时,相反;
S6、结合激活函数CMin(α),CMaj(α)及特征区分度Fscore,计算样本综合区分能力为确定最佳的均衡度α提供了依据,计算方法为:
即,最大值对于的α即为需要通过合成采样得到的最佳样本均衡度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910187920.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置