[发明专利]一种分类模型训练方法、系统、电子设备及存储介质有效
申请号: | 201911398087.1 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111178435B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 王刚锋 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/56 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郄晨芳 |
地址: | 250001 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分类 模型 训练 方法 系统 电子设备 存储 介质 | ||
1.一种分类模型训练方法,其特征在于,包括:
确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;
根据所述数据分布特征信息生成所述目标样本对应的新样本;
利用所述第一类样本、所述第二类样本和所述新样本训练分类模型;
其中,根据所述目标样本之间的欧氏距离确定所述目标样本的数据分布特征信息包括:
利用第一公式计算任意两个近邻目标样本之间的优良性比值,并将所述优良性比值作为所述数据分布特征信息;其中,所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本;
其中,所述第一公式为,为样本与样本之间的优良性比值,为所述目标样本中的任一样本,为样本的k个同类近邻样本中第m个近邻样本,为样本的k个近邻样本中目标样本的个数,为样本的k个近邻样本中目标样本个数;
其中,根据所述数据分布特征信息生成所述目标样本对应的新样本,包括:
当所述优良性比值小于1时,利用第二公式生成所述目标样本对应的新样本;其中,所述第二公式为;
当所述优良性比值大于1时,利用第三公式生成所述目标样本对应的新样本;其中,所述第三公式为;
当所述优良性比值等于1时,利用第四公式生成所述目标样本对应的新样本;其中,所述第四公式为;
其中,所述第一类样本为病毒文件样本,所述第二类样本为非病毒文件样本,所述分类模型为文件类型检测模型;
其中,在根据采样结果对所述分类模型执行训练操作之后,还包括:
利用训练后的文件类型检测模型对未知文件执行检测操作生成检测结果,以便根据检测结果判定所述未知文件是否为病毒文件。
2.根据权利要求1所述分类模型训练方法,其特征在于,利用所述第一类样本、所述第二类样本和所述新样本训练分类模型包括:
对所述第一类样本、所述第二类样本和所述新样本执行采样操作,并根据采样结果对所述分类模型执行训练操作。
3.根据权利要求1或2所述分类模型训练方法,其特征在于,确定数据集中第一类样本和第二类样本的采样倍率包括:
根据所述数据集中的样本数量比例确定数据集中第一类样本和第二类样本的采样倍率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911398087.1/1.html,转载请声明来源钻瓜专利网。