[发明专利]一种类不平衡对分类模型性能影响程度的评价方法有效

专利信息
申请号: 201510732754.0 申请日: 2015-11-03
公开(公告)号: CN105243394B 公开(公告)日: 2019-03-19
发明(设计)人: 于巧;姜淑娟;张艳梅;王兴亚 申请(专利权)人: 中国矿业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 221116*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 种类 不平衡 分类 模型 性能 影响 程度 评价 方法
【说明书】:

发明涉及一种类不平衡对分类模型性能影响程度的评价方法,包括下列步骤:(1)分类模型库构建;(2)新数据集构造;(3)分类模型对新数据集进行预测;(4)分类模型性能评价;(5)影响程度等级评定。本发明首先采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度,对于类不平衡问题的研究具有指导意义。针对不同的分类模型,本发明提供的类不平衡对分类模型性能影响程度的评价方法具有较高的普适性。

技术领域

本发明属于数据挖掘和机器学习领域,涉及一种分类模型的评价方法,且特别是关于一种类不平衡对分类模型性能影响程度的评价方法。

背景技术

分类是数据挖据领域中的重要技术,是指在已知类别的数据上,通过学习构建一个分类模型,然后对其他未知类别的数据进行预测的过程。在构建分类模型的过程中,往往需要结合机器学习中的算法或模型来提高分类的准确度。

随着数据挖掘和机器学习领域的不断发展,类不平衡问题也逐步成为这些领域的研究热点。一般地,类不平衡是指不同类别间样本数量分布的不均衡现象。对于二分类问题,数据集中往往包含正类样本和负类样本,且一般情况下,正类样本属于少数类,而负类样本属于多数类,其中正类样本(少数类)为待检测类。因此,当负类样本数远远高于正类样本数时,就表现出类不平衡问题。

在实际应用中,类不平衡问题是普遍存在的,如文本分类、欺诈检测和医学诊断等领域。然而,因类不平衡问题的存在,传统分类模型的性能可能会受到一定的影响。目前,解决类不平衡问题的方法也有很多,主要分为两大类:一类是从数据集分布角度,通过改变数据集的样本分布状态来降低类不平衡产生的影响,主要通过采样法来实现;另一类是从学习算法角度,针对不同算法在处理类不平衡问题时的不足加以改进,从而取得更好的分类性能,这类方法主要有代价敏感学习和集成学习等。然而,在解决分类不平衡问题的同时,往往需要与特定的分类模型相结合或者在某些分类模型下进行验证,上述方法未充分考虑到类不平衡问题对分类模型本身产生的影响。在类不平衡情况下,不同分类模型的性能可能会受到不同程度的影响,即有的分类模型的性能极易受到影响,而有的分类模型的性能保持相对稳定。因此,掌握不同分类模型在类不平衡情况下的稳定性,可在实际应用中有针对性地选择合理的分类模型,对类不平衡问题的研究具有指导意义。

发明内容

为了探究类不平衡对不同分类模型性能的影响程度,本发明提供一种类不平衡对分类模型性能影响程度的评价方法。首先,采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度。

为了达成上述目的,本发明提供一种类不平衡对分类模型性能影响程度的评价方法。具体步骤如下。

(1) 分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,包括C4.5、K近邻、朴素贝叶斯和RIPPER四种基本模型,其中C4.5是一种典型的决策树算法,而RIPPER是一种基于规则的分类方法,同时还包括AdaBoost和Bagging两种集成模型。初始化分类模型并对各模型的运行参数进行设置。特别地,该分类模型库并不仅包含以上6种分类模型,其具有可更新性,可实现分类模型的增加、修改和删除等功能。

(2) 新数据集构造,选取类不平衡数据集作为基准数据集。对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率(Imbalance Ratio, IR),其计算如公式①所示:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510732754.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top