[发明专利]分类器生成方法、装置、存储介质及电子设备在审
申请号: | 202011482638.5 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112508116A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 刘芷宁;常毅 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 张晓芳 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 生成 方法 装置 存储 介质 电子设备 | ||
本申请公开了一种分类器生成方法、装置、存储介质及电子设备,属于计算机技术领域。所述分类器生成方法包括:获取第n个集成分类器和第n个数据子集,通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数,通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重,基于所述第n个采样权重生成第n+1个数据子集,将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器。故本申请通过构造元采样器,能自动从数据中学习对给定任务提供最优的采样策略,有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。
技术领域
本发明涉及计算机技术领域,具体涉及一种分类器生成方法、装置、存储介质及电子设备。
背景技术
传统的机器学习方法通常假设不同的类别的训练数据量是相同的,并不考虑不同类别样本数量以及标识质量的差异。然而在机器学习系统的实际应用中,所收集到的训练数据经常是类别不平衡的,即在一个数据集中,不同类别样本的数量差异很大,导致表示的质量有很大差别。例如金融欺诈检测(正常账单/欺诈账单),网络入侵检测(正常用户连接/恶意连接),医疗辅助诊断(正常人/患者)等任务中,正负类的样本数量都有很大的差别,其数量差异从几十倍到上千倍不等。由于忽视了类别分布的先验信息,传统机器学习模型在不平衡的数据上难以学习到少数类的模式,甚至会将所有未见数据全部预测为多数类。现有的不平衡学习方法,例如:通过添加或删除数据集中的样本来平衡数据分布或去除噪声的重采样方法,通过给不同的样本分配不同的权重或重要性来修正偏差的重加权方法,以及将重采样或重加权方法嵌入到集成学习框架中的集成学习类方法。这些方法通常基于一些直觉上的观察和假设,而在实际中这些假设一般是不成立的,导致在实际应用中的性能、计算效率、适用性都不尽如人意。因此如何让计算机自动从数据中学习超越手工设计的策略,从而提升机器学习系统在类别不平衡数据上的稳定表现是目前亟待解决的问题。
发明内容
本申请实施例提供了一种分类器生成方法、装置、存储介质及电子设备,通过构造参数化、自适应和可学习的元采样器,能有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种分类器生成方法,包括:
获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
基于所述第n个采样权重生成第n+1个数据子集;
将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器;
在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器;
在n+1小于或等于阈值时,继续进行迭代。
第二方面,本申请实施例提供了一种分类器生成装置,所述装置包括:
获取模块,用于获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
第一处理模块,用于通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
第二处理模块,用于通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
生成模块,用于基于所述第n个采样权重生成第n+1个数据子集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011482638.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机械加工用固定定位装置
- 下一篇:移位寄存器、显示面板及显示装置