[发明专利]基于数据类型的机器学习模型的训练方法及装置有效

申请号：	201811311778.9	申请日：	2018-11-06
公开（公告）号：	CN111209998B	公开（公告）日：	2023-08-18
发明（设计）人：	张玮;李瑞祥;周珅珅;袁野	申请（专利权）人：	航天信息股份有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	黄志华
地址：	100195 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于数据类型机器学习模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于数据类型的机器学习模型的训练方法及装置。该方法获取包括至少一种数据类型的通信数据，并采用已存储通信协议，对通信数据进行分析，得到已存储数据类型的当前训练样本和未存储数据类型的当前测试样本，之后基于预设的数据类型提取算法、当前训练样本和当前测试样本，训练得到目标数据类型的机器学习模型，目标数据类型的机器学习模型包括当前训练样本的目标数据类型。该方法通过目标数据类型的机器学习模型对未存储数据的数据类型进行检测，判断出未存储数据是否为正常数据，避免了正常数据被丢弃的现象，降低了丢包率。

技术领域

本申请涉及机器学习领域，尤其涉及一种基于数据类型的机器学习模型的训练方法及装置。

背景技术

目前，网络传输中对遵守已存储通信协议(或称“已知的通信协议”)的数据源发出的数据，可以根据已存储通信协议的具体内容，对该数据的数据结构进行分析，即已存储通信协议的数据结构是透明的。在数据传输过程中，对于网络接受方来说，这样可分析的数据结构是相对安全的。

然而，发明人发现对于自定义的数据或未知数据源发出的数据，网络接收方不能分析出该数据的数据类型，认为该数据的数据类型是未存储的(或称“未知的”)，导致网络接收方为了网络安全，将该数据判定为攻击数据，如垃圾短信，并丢弃该数据，以造成正常数据的丢失。

发明内容

本申请实施例提供一种基于数据类型的机器学习模型的训练方法及装置，以解决现有技术中正常数据丢失的问题。

第一方面，提供了一种基于数据类型的机器学习模型的训练方法，该方法包括：

步骤A：获取通信数据，所述通信数据包括至少一种数据类型；

步骤B：采用存储的通信协议，对所述通信数据进行分析，得到已存储数据类型的当前训练样本和未存储数据类型的当前测试样本；

步骤C：基于所述当前训练样本，采用预设训练算法，训练得到初始机器学习模型，所述初始机器学习模型包括所述当前训练样本的目标数据类型，在首次训练中所述当前训练样本和所述当前测试样本分别为初始训练样本和初始测试样本；

步骤D：将所述当前测试样本输入所述初始机器学习模型，得到测试结果，所述测试结果包括所述目标数据类型在所述当前测试样本中的概率；