[发明专利]一种不均衡数据下最优化学习样本合成算法选择及参数确定方法有效

专利信息
申请号: 201910187920.1 申请日: 2019-03-13
公开(公告)号: CN110021426B 公开(公告)日: 2021-10-15
发明(设计)人: 许金山;卢炎培 申请(专利权)人: 浙江工业大学
主分类号: G16H50/20 分类号: G16H50/20;A61B5/00
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种不均衡数据下最优化学习样本合成算法选择及参数确定方法,以数据特征对诊断结果的贡献能力为出发点,分析样本均衡度对其区分能力的影响,提出以最大化特征区分能力为指标来选择样本合成采样算法。同时,构建激活函数来描述样本数量对分类能力的影响。在此基础上,提出有效特征区分度指标,并通过对该指标的最大化来获得最优样本均衡度。本发明所涉及的过程均以特征对样本的正确分类为目标,且仅需要对原始数据进行操作,可以在不增加样本采集及引入新特征的情况下获得更高的诊断效果。另外,没有特征数量方面要求,不会因为数据特征数量多少影响最终计算的最优样本均衡度的准确率。
搜索关键词: 一种 均衡 数据 优化 学习 样本 合成 算法 选择 参数 确定 方法
【主权项】:
1.一种不均衡数据下最优化学习样本合成算法选择及参数确定方法,其特征在于,所述方法包括以下步骤:S1、计算样本原始均衡度以最终需要达到的样本均衡度α计算合成采样样本数N=(α‑α1)·(#of Majority Smaples),α∈[α1,∞],利用SMOTE和ADASYN采样方法合成N个新样本;S2、在不同均衡度α下,计算各个特征xi对样本分类的区分能力计算方程为:其中,分别表示特征i的平均值,多少数类样本的特征均值及少数类样本特征均值xk,i+,xk,i分别表示少数类和多数类中的第k个样本的i特征值S3、根据步骤S2中所求得的每个单一特征区分度利用随机森林算法计算出的特征权重,计算特征的总体区分度Fscore其中,wi是利用随机森林算法计算得到的每个特征的权重,n为样本特征的个数;S4、对于不同合成采样算法下得到的特征总体区分度值Fscore,其值越高,表明合成样本数据越有利用样本分类,即通过Fscore确定合成采样算法;S5、构造激活函数CMin(α)和CMaj(α),表征样本量对少数类(Min)和多数量(Maj)的作用力,同时引入初始样本数均衡度α1来描述原有样本在类间的分布对分类结果的影响:其中,α为经过合成采样后少数类样本数与多数类样本数间的比值,α1表示样本均的初始衡度。由函数定义可知,当α<<1时,即训练样本多数类样本占主导,对少数分的区分能力最小,对多数类样本的区分能力最大,当α>>1时,相反;S6、结合激活函数CI(α),CII(α)及特征区分度Fscore,计算样本综合区分能力为确定最佳的均衡度α提供了依据,计算方法为:即,最大值对于的α即为需要通过合成采样得到的最佳样本均衡度值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910187920.1/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top