[发明专利]基于深度学习的不平衡数据的均衡采样及建模方法在审

专利信息
申请号: 201810637767.3 申请日: 2018-06-20
公开(公告)号: CN108921208A 公开(公告)日: 2018-11-30
发明(设计)人: 喻梅;邓锐;徐天一;赵满坤;高洁;赵永伟 申请(专利权)人: 天津大学
主分类号: G06K9/62 分类号: G06K9/62;G16H50/20
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 杜文茹
地址: 300350 天津市津南区海*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 样本集合 新数据 聚类 集合 抽象特征 聚类结果 特征集 采样 建模 平衡 均衡 单一处理 关联矩阵 融合算法 数据集中 过采样 准确率 抽取 取出 融合 学习
【说明书】:

一种基于深度学习的不平衡数据的均衡采样及建模方法:取出数据集中多数类和少数类样本集合,并分别计数;对多数类样集合本进行多次K‑Means聚类,得到R个聚类结果;采用基于关联矩阵的聚类融合算法,将R个聚类结果进行聚类融合,得到新的多数类样集合;对少数类样本集合进行过采样,得到新的少数类样本集合;将得到的新的多数类样集合和新的少数类样本集合相组合,形成类别平衡的新数据集;抽取类别平衡的新数据集的抽象特征,将抽象特征作为一个新的特征加入到类别平衡的新数据集的特征集中,形成新的特征集;采用得到的新的特征集训练DBN模型,得到最优DBN模型。本发明避免了单一处理方法中的缺点,有更好的处理能力,并且有较好的准确率。

技术领域

本发明涉及一种不平衡数据的均衡采样及建模方法。特别是涉及一种基于深度学习的不平衡数据的均衡采样及建模方法。

背景技术

对于数据不平衡问题,目前的研究方向主要分为两种:基于数据层面的数据不平衡方法研究和基于算法层面的数据不平衡方法研究。

数据层面的数据不平衡问题主要采用过采样和欠采样两种方法。过采样是增加少数类样本的数量,使其总数量与多数类样本达到平衡,对应的欠采样则是减少样本的数量,或者从中提取一定的样本,使其数量与少数类达到平衡。

常用的过采样方法是自适应合成采样方法(Adaptive Synthetic SamplingApproach,ADASYN)。该方法可以根据少数类样本的分布情况自适应地合成部分少数类样本,并在易分类处合成较少样本而在难分类处合成更多样本。但是该方法对所有的少数类样本都合成部分新样本,因而新样本分布比较零散,不能集中在类边界区域,并且该方法不能抵抗噪声和孤立样本的干扰。

常用的欠采样方法是压缩最近邻规则(Condensed Nearest Neighbor Rule,CNN)。其思想是从多数类中得到“一致性子集”。方法为:对于多数类样本,随机的选取多个样本与所有多数类样本组合成子集,接着采用k最近邻算法进行训练,得到分类器。使用得到的分类器对多数类样本进行分类,将分类错误的样本重新加入到子集中。CNN算法只能往候选一致集中添加样例,而不能从中删除样例,因此用CNN算法求出的样例子集依然含有冗余的样例。另外,CNN算法对噪声和样例挑选的顺序都非常敏感,挑选出的样例子集未必是最小一致集。

算法层面的数据不平衡问题常用的方法有单类学习、K-Means聚类算法。单类学习是一种注重于识别某一种类别的分类方法。单类学习通过对某一类别的样本数据进行学习,得到能够准确识别某一类别的分类器。单类学习通过样本的特征与目标类别进行相似度对比作为类别划分标准。在不平衡数据集中,通过对少数类进行单类学习,强化分类器对于少数类样本的识别准确率,可以提高分类器对少数类样本的分类性能。但是,由于单类学习专注于少数类样本的学习,导致多数类样本的大量有用信息被遗弃,虽然降低了算法的时间复杂度,但是容易导致欠拟合。

K-Means算法是一种最常用的聚类算法,同时也是一种无监督学习算法。算法默认使用欧几里得距离作为相似度的评价标准。运算结果是将样本划分成k个簇,每一个簇都是由相互距离较近的样本组成。但是单纯使用K-Means算法会暴露其不足之处,比如在K-Means算法中k是事先给定的,这个k值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。并且,在K-Means算法中,初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果。

发明内容

本发明所要解决的技术问题是,提供一种基于深度学习的不平衡数据的均衡采样及建模方法,能够有效解决普通分类器在处理不平衡的医疗数据时,对于少数类的分类性能表现较差,从而导致建立的预测模型不准确的问题。

本发明所采用的技术方案是:一种基于深度学习的不平衡数据的均衡采样及建模方法,包括如下步骤:

1)取出数据集中多数类和少数类样本集合,并分别计数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810637767.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top