[发明专利]一种分类模型训练方法、系统、电子设备及存储介质有效

申请号：	201911398087.1	申请日：	2019-12-30
公开（公告）号：	CN111178435B	公开（公告）日：	2022-03-22
发明（设计）人：	王刚锋	申请（专利权）人：	山东英信计算机技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F21/56
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	郄晨芳
地址：	250001 山东省济南市高新区***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分类模型训练方法系统电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种分类模型训练方法，所述分类模型训练方法包括确定数据集中第一类样本和第二类样本的采样倍率，并将采样倍率小于预设值的样本设置为目标样本；根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息；其中，所述数据分布特征信息为描述近邻样本中同类样本数量的信息，所述近邻样本为欧式距离小于预设距离的两个样本；根据所述数据分布特征信息生成所述目标样本对应的新样本；利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。本申请能够均衡数据集中的各种类样本的数量，提高分类模型的预测准确度。本申请还公开了一种分类模型训练系统、一种电子设备及一种存储介质，具有以上有益效果。

技术领域

本申请涉及机器学习技术领域，特别涉及一种分类模型训练方法、系统、一种电子设备及一种存储介质。

背景技术

基于非均衡的数据集构建的预测模型，会对数据集中占比大的类表现出更大的倾向，造成明显的预测误差。目前，针对非均衡数据普遍采用欠缺采样处理或过采样处理以使得非均衡数据类别平衡。欠采样的基本原理是主动丢弃非均衡数据集中类别占比较大的数据，以达到类别占比均衡，但欠采样处理大多会造成数据特性遗失，给最终的预测模型造成预置的误差；传统的过采样模型，往往采取单纯的数据复制，又会使得数据特征偏移，数据分布边缘化加重和增加噪声等问题，这虽然能够均衡数据集，但会使得最终的预测模型产生过拟合和泛化能力差的问题。

因此，如何均衡数据集中的各种类样本的数量，提高分类模型的预测准确度是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种分类模型训练方法、系统、一种电子设备及一种存储介质，能够均衡数据集中的各种类样本的数量，提高分类模型的预测准确度。

为解决上述技术问题，本申请提供一种分类模型训练方法，该分类模型训练方法包括：

确定数据集中第一类样本和第二类样本的采样倍率，并将采样倍率小于预设值的样本设置为目标样本；

根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息；其中，所述数据分布特征信息为描述近邻样本中同类样本数量的信息，所述近邻样本为欧式距离小于预设距离的两个样本；

根据所述数据分布特征信息生成所述目标样本对应的新样本；

利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。

可选的，根据所述目标样本之间的欧氏距离确定所述目标样本的数据分布特征信息包括：

利用第一公式计算任意两个近邻目标样本之间的优良性比值，并将所述优良性比值作为所述数据分布特征信息；其中，所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本；

其中，所述第一公式为Rat_im＝Numx_i/Numx_im，Rat_im为样本x_i与样本x_im之间的优良性比值，x_i为所述目标样本中的任一样本，x_im为样本x_i的k个同类近邻样本中第m个近邻样本，Numx_i为样本x_i的k个近邻样本中目标样本的个数，Numx_im为样本x_im的k个近邻样本中目标样本个数。

可选的，根据所述数据分布特征信息生成所述目标样本对应的新样本，包括：

当所述优良性比值小于1时，利用第二公式生成所述目标样本对应的新样本x_newim；其中，所述第二公式为x_newim＝x_im+rand(0,1)*Rat_im*(x_i-x_im)；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司，未经山东英信计算机技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911398087.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种PCB板用稳定剂及其制备方法
下一篇：一种对话机器人引擎流量分配方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种分类模型训练方法、系统、电子设备及存储介质有效

专利文献下载