[发明专利]基于数据类型的机器学习模型的训练方法及装置有效
申请号: | 201811311778.9 | 申请日: | 2018-11-06 |
公开(公告)号: | CN111209998B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 张玮;李瑞祥;周珅珅;袁野 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100195 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据类型 机器 学习 模型 训练 方法 装置 | ||
本申请公开了一种基于数据类型的机器学习模型的训练方法及装置。该方法获取包括至少一种数据类型的通信数据,并采用已存储通信协议,对通信数据进行分析,得到已存储数据类型的当前训练样本和未存储数据类型的当前测试样本,之后基于预设的数据类型提取算法、当前训练样本和当前测试样本,训练得到目标数据类型的机器学习模型,目标数据类型的机器学习模型包括当前训练样本的目标数据类型。该方法通过目标数据类型的机器学习模型对未存储数据的数据类型进行检测,判断出未存储数据是否为正常数据,避免了正常数据被丢弃的现象,降低了丢包率。
技术领域
本申请涉及机器学习领域,尤其涉及一种基于数据类型的机器学习模型的训练方法及装置。
背景技术
目前,网络传输中对遵守已存储通信协议(或称“已知的通信协议”)的数据源发出的数据,可以根据已存储通信协议的具体内容,对该数据的数据结构进行分析,即已存储通信协议的数据结构是透明的。在数据传输过程中,对于网络接受方来说,这样可分析的数据结构是相对安全的。
然而,发明人发现对于自定义的数据或未知数据源发出的数据,网络接收方不能分析出该数据的数据类型,认为该数据的数据类型是未存储的(或称“未知的”),导致网络接收方为了网络安全,将该数据判定为攻击数据,如垃圾短信,并丢弃该数据,以造成正常数据的丢失。
发明内容
本申请实施例提供一种基于数据类型的机器学习模型的训练方法及装置,以解决现有技术中正常数据丢失的问题。
第一方面,提供了一种基于数据类型的机器学习模型的训练方法,该方法包括:
步骤A:获取通信数据,所述通信数据包括至少一种数据类型;
步骤B:采用存储的通信协议,对所述通信数据进行分析,得到已存储数据类型的当前训练样本和未存储数据类型的当前测试样本;
步骤C:基于所述当前训练样本,采用预设训练算法,训练得到初始机器学习模型,所述初始机器学习模型包括所述当前训练样本的目标数据类型,在首次训练中所述当前训练样本和所述当前测试样本分别为初始训练样本和初始测试样本;
步骤D:将所述当前测试样本输入所述初始机器学习模型,得到测试结果,所述测试结果包括所述目标数据类型在所述当前测试样本中的概率;
若所述概率不小于预设阈值,则确定所述初始机器学习模型为所述目标数据类型的机器学习模型。
在一个可选的实现中,该方法还包括:
若所述概率小于所述预设阈值,则确定新的当前训练样本,并返回执行步骤C。
在一个可选的实现中,确定新的当前训练样本,包括:
获取新的通信数据;
将所述新的通信数据确定为新的当前训练样本。
在一个可选的实现中,当前训练样本包括目标数据类型的权重和当前训练样本中除目标数据类型之外的其它数据类型的权重;
确定新的当前训练样本,包括:
调整所述当前训练样本中所述目标数据类型的权重和所述其他数据类型的权重;
将调整数据类型的权重后的当前训练样本确定作为新的当前训练样本。
在一个可选的实现中,该方法还包括:
当返回执行步骤C的次数满足预设训练停止条件时,将最后训练得到的初始机器学习模型确定为目标数据类型的机器学习模型。
第二方面,提供了一种基于数据类型的机器学习模型的训练装置,该装置包括:获取单元、分析单元、训练单元、输入单元和确定单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811311778.9/2.html,转载请声明来源钻瓜专利网。