[发明专利]一种分类模型训练方法、系统、电子设备及存储介质有效
申请号: | 201911398087.1 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111178435B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 王刚锋 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/56 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郄晨芳 |
地址: | 250001 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分类 模型 训练 方法 系统 电子设备 存储 介质 | ||
本申请公开了一种分类模型训练方法,所述分类模型训练方法包括确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;根据所述数据分布特征信息生成所述目标样本对应的新样本;利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。本申请能够均衡数据集中的各种类样本的数量,提高分类模型的预测准确度。本申请还公开了一种分类模型训练系统、一种电子设备及一种存储介质,具有以上有益效果。
技术领域
本申请涉及机器学习技术领域,特别涉及一种分类模型训练方法、系统、一种电子设备及一种存储介质。
背景技术
基于非均衡的数据集构建的预测模型,会对数据集中占比大的类表现出更大的倾向,造成明显的预测误差。目前,针对非均衡数据普遍采用欠缺采样处理或过采样处理以使得非均衡数据类别平衡。欠采样的基本原理是主动丢弃非均衡数据集中类别占比较大的数据,以达到类别占比均衡,但欠采样处理大多会造成数据特性遗失,给最终的预测模型造成预置的误差;传统的过采样模型,往往采取单纯的数据复制,又会使得数据特征偏移,数据分布边缘化加重和增加噪声等问题,这虽然能够均衡数据集,但会使得最终的预测模型产生过拟合和泛化能力差的问题。
因此,如何均衡数据集中的各种类样本的数量,提高分类模型的预测准确度是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种分类模型训练方法、系统、一种电子设备及一种存储介质,能够均衡数据集中的各种类样本的数量,提高分类模型的预测准确度。
为解决上述技术问题,本申请提供一种分类模型训练方法,该分类模型训练方法包括:
确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;
根据所述数据分布特征信息生成所述目标样本对应的新样本;
利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。
可选的,根据所述目标样本之间的欧氏距离确定所述目标样本的数据分布特征信息包括:
利用第一公式计算任意两个近邻目标样本之间的优良性比值,并将所述优良性比值作为所述数据分布特征信息;其中,所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本;
其中,所述第一公式为Ratim=Numxi/Numxim,Ratim为样本xi与样本xim之间的优良性比值,xi为所述目标样本中的任一样本,xim为样本xi的k个同类近邻样本中第m个近邻样本,Numxi为样本xi的k个近邻样本中目标样本的个数,Numxim为样本xim的k个近邻样本中目标样本个数。
可选的,根据所述数据分布特征信息生成所述目标样本对应的新样本,包括:
当所述优良性比值小于1时,利用第二公式生成所述目标样本对应的新样本xnewim;其中,所述第二公式为xnewim=xim+rand(0,1)*Ratim*(xi-xim);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911398087.1/2.html,转载请声明来源钻瓜专利网。