[发明专利]一种不均衡数据下最优化学习样本合成算法选择及参数确定方法有效

申请号：	201910187920.1	申请日：	2019-03-13
公开（公告）号：	CN110021426B	公开（公告）日：	2021-10-15
发明（设计）人：	许金山;卢炎培	申请（专利权）人：	浙江工业大学
主分类号：	G16H50/20	分类号：	G16H50/20;A61B5/00
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种不均衡数据下最优化学习样本合成算法选择及参数确定方法，以数据特征对诊断结果的贡献能力为出发点，分析样本均衡度对其区分能力的影响，提出以最大化特征区分能力为指标来选择样本合成采样算法。同时，构建激活函数来描述样本数量对分类能力的影响。在此基础上，提出有效特征区分度指标，并通过对该指标的最大化来获得最优样本均衡度。本发明所涉及的过程均以特征对样本的正确分类为目标，且仅需要对原始数据进行操作，可以在不增加样本采集及引入新特征的情况下获得更高的诊断效果。另外，没有特征数量方面要求，不会因为数据特征数量多少影响最终计算的最优样本均衡度的准确率。
搜索关键词：	一种均衡数据优化学习样本合成算法选择参数确定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种不均衡数据下最优化学习样本合成算法选择及参数确定方法，其特征在于，所述方法包括以下步骤：S1、计算样本原始均衡度以最终需要达到的样本均衡度α计算合成采样样本数N＝(α‑α₁)·(#of Majority Smaples)，α∈[α₁,∞]，利用SMOTE和ADASYN采样方法合成N个新样本；S2、在不同均衡度α下，计算各个特征x_i对样本分类的区分能力计算方程为：其中，分别表示特征i的平均值，多少数类样本的特征均值及少数类样本特征均值x_k,i⁺,x_k,i^‑分别表示少数类和多数类中的第k个样本的i特征值S3、根据步骤S2中所求得的每个单一特征区分度利用随机森林算法计算出的特征权重，计算特征的总体区分度F_score其中，w_i是利用随机森林算法计算得到的每个特征的权重，n为样本特征的个数；S4、对于不同合成采样算法下得到的特征总体区分度值F_score，其值越高，表明合成样本数据越有利用样本分类，即通过F_score确定合成采样算法；S5、构造激活函数C_Min(α)和C_Maj(α)，表征样本量对少数类(Min)和多数量(Maj)的作用力，同时引入初始样本数均衡度α₁来描述原有样本在类间的分布对分类结果的影响：其中，α为经过合成采样后少数类样本数与多数类样本数间的比值，α₁表示样本均的初始衡度。由函数定义可知，当α＜＜1时，即训练样本多数类样本占主导，对少数分的区分能力最小，对多数类样本的区分能力最大，当α＞＞1时，相反；S6、结合激活函数C_I(α),C_II(α)及特征区分度F_score，计算样本综合区分能力为确定最佳的均衡度α提供了依据，计算方法为：即，最大值对于的α即为需要通过合成采样得到的最佳样本均衡度值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910187920.1/，转载请声明来源钻瓜专利网。

上一篇：一种比较检测器及其构建方法与宫颈癌细胞检测方法
下一篇：一种用于对心衰患者进行自动筛选和诊疗的方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种不均衡数据下最优化学习样本合成算法选择及参数确定方法有效

专利文献下载