[发明专利]基于N-gram预测工控网漏洞的系统有效
申请号: | 202111358163.3 | 申请日: | 2021-11-17 |
公开(公告)号: | CN114021150B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 李峰;李艳虎;程学志;姜明;时伟强;张洪铭 | 申请(专利权)人: | 山东云天安全技术有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 丁慧玲 |
地址: | 250014 山东省济南市历下区经*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gram 预测 工控网 漏洞 系统 | ||
1.一种基于N-gram预测工控网漏洞的系统,其特征在于,
包括处理器、数据库和存储有计算机程序的存储介质,处理器与数据库通信连接,所述数据库中存储有预设的工业互联网停用词库和所有互联网漏洞id对应的Summary的文本序列,Summary为漏洞描述文本, 每一样本漏洞id对应的Summary的文本序列为{Str1,Str2,…},Stre为第e个更新周期对应的Summary的文本,e的取值范围为1到无穷大;所述存储介质中存储的计算机程序包括第六计算机程序,所述处理器实行所述第六计算机程序时,实现以下步骤:
步骤S601、基于所述工业互联网停用词库将Stre中的工业互联网停用词去除,并在工业互联网停用词的位置对Stre进行分割,生成对应的文本片段序列{Fre1,Fre2,…FreI},Frei为Stre的第i个文本片段,i的取值范围为1到I,I为Stre的文本片段总数;
步骤S602、对每一Stre的每一Frei执行预设的N-gram分词处理,N为正整数,取值范围为[Kn1,Kn2],每一Stre的所有Frei的分词合并去重,得到对应的分词向量FBe;
步骤S603、将所有的FBe中的分词合并去重,得到分词集合FC,将FC的分词数量确定为one-hot编码的维度;
步骤S604、基于one-hot编码的维度对分词向量FBe进行one-hot编码,得到每一Stre的原始特征参数值;
步骤S605、基于样本漏洞id对应的Stre的原始特征参数值构建模型输入向量,训练得到工控网漏洞预测模型,基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
2.根据权利要求1所述的系统,其特征在于,
所述处理器实行所述第六计算机程序时,还实现工业互联网停用词库更新流程,包括以下步骤:
步骤S600、初始化N-gram中的N=Kn2,
步骤S610、对所有漏洞id对应的Summary文本基于所述工业互联网停用词库分割成文本片段,并去除工业互联网停用词,再对每一文本片段作N-gram分词处理,获取N-gram分词数量列表;
步骤S620、将N-gram分词数量大于预设的分词数量阈值D3的N-gram 分词加入所述工业互联网停用词库中,判断N是否大于Kn1,若是,则设置N=N-1,返回执行步骤S610,若N等于Kn1,则结束所述工业互联网停用词库更新流程。
3.根据权利要求2所述的系统,其特征在于,
其中,D3与和SN呈正相关,D3与avg(N)呈负相关,SN为所有漏洞的所有Summary总数量,Lj为第j个Summary的长度,avg(N)为N-gram中N的所有取值的均值。
4.根据权利要求1所述的系统,其特征在于,
kn1取值为3,kn2取值为6。
5.根据权利要求1所述的系统,其特征在于,
所述步骤S605中,基于样本漏洞id对应的Stre的原始特征参数值构建模型输入向量,包括:
步骤S615、基于样本漏洞id对应的Stre的原始特征参数值g(Stre)和对应的特征权重we,确定每一Stre对应的Summary特征参数值PCSe=we*g(Stre),基于样本漏洞id对应的Summary特征参数值构建模型输入向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东云天安全技术有限公司,未经山东云天安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111358163.3/1.html,转载请声明来源钻瓜专利网。