[发明专利]一种类不平衡对分类模型性能影响程度的评价方法有效
申请号: | 201510732754.0 | 申请日: | 2015-11-03 |
公开(公告)号: | CN105243394B | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 于巧;姜淑娟;张艳梅;王兴亚 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 221116*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 种类 不平衡 分类 模型 性能 影响 程度 评价 方法 | ||
1.一种类不平衡对分类模型性能影响程度的评价方法,其特性在于,首先,采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度;具体包括下列步骤:
(1)分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,初始化分类模型并对各模型的运行参数进行设置;同时,该分类模型库具有可更新性,可实现分类模型的增加、修改和删除功能;
(2)新数据集构造,选取类不平衡数据集作为基准数据集,对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率(Imbalance Ratio,IR),其计算如公式①所示:
其中,n1表示正类样本数,n2表示负类样本数,且n2远远大于n1;
设计一种新数据集构造算法,并通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD;
(3)分类模型对新数据集进行预测,假设原始数据集D的不平衡率IR的值为r,在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集newD分别进行分类和预测,并采用AUC(Area Under the Curve)指标来评价各个分类模型的性能,从而得到一组不同不平衡率下的AUC值,记为集合S={AUCi},i=1,2,…,r;为了降低步骤(2)中新数据集构造带来的随机误差,集合S中每个AUC取100次重复实验的平均值;
(4)分类模型性能评价,根据步骤(3)得到的预测结果,计算集合S={AUCi}中所有AUC值的平均值μ和标准差σ,如公式②③所示;同时,采用标准差σ与平均值μ的比值,即变异系数CV(Coefficient of Variation),来衡量不同不平衡率下AUC值的变异程度,消除了平均值不同对变异程度比较的影响,从而更好地评价类不平衡对不同分类模型性能的影响程度,变异系数CV计算如公式④所示:
平均值
标准差
变异系数
(5)影响程度等级评定,变异系数CV值越大,说明类不平衡对该分类模型性能的影响程度越大;根据变异系数CV值划分为A,B,C,D四个等级:
A.0%<CV<=5%,基本无影响;
B.5%<CV<=10%,有一定影响;
C.10%<CV<=20%,有明显影响;
D.CV>20%,有强烈影响;
最后,根据变异系数CV值来评价类不平衡对不同分类模型性能的影响程度。
2.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(2)中,定义不平衡率IR,并设计一种新数据集构造算法,该算法通过随机采样法将原始的类不平衡数据集转化为一组新数据集,且新数据集的不平衡率是依次递增的。
3.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(3)中,从分类模型库中选取待评价的分类模型,对得到的不平衡率依次递增的新数据集进行预测,采用AUC指标评价预测性能,AUC值越大,说明该分类模型的性能越好,预测结果也越准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510732754.0/1.html,转载请声明来源钻瓜专利网。