[发明专利]一种基于自然处理特征工程的网络资产识别方法和系统在审
申请号: | 202211529784.8 | 申请日: | 2022-11-30 |
公开(公告)号: | CN115733903A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 赵海全;陈学鹏 | 申请(专利权)人: | 湖南华顺信安科技有限公司 |
主分类号: | H04L69/22 | 分类号: | H04L69/22;H04L41/16;G06F40/284;G06F40/289;G06F18/2431;G06F18/2453;G06F18/22;G06N5/01;G06N3/08 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 刘奕 |
地址: | 410000 湖南省长沙市岳麓山大学科技城*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然 处理 特征 工程 网络 资产 识别 方法 系统 | ||
1.一种基于自然处理特征工程的网络资产识别方法,其特征在于,包括:
获取报文头部数据;
根据所述报文头部数据和预设的划分模型得到初始段落;
根据所述初始段落得到初始词;
根据所述初始词和预设的词频逆文档频率模型得到目标词;
根据所述目标词和预设的词向量模型得到最终词;
根据所述初始段落和预设的文档向量模型得到目标段落;
根据所述最终词和所述目标段落得到最终报文头部数据;
根据所述最终报文头部数据在预设的随机森林模型中匹配得到网络资产类型。
2.根据权利要求1所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述根据所述报文头部数据和预设的划分模型得到初始段落包括:
获取预设的字符;
建立段落表格;
将报文头部数据放置在段落表格的第一行,以段落表格第一行从左到右的方向为读取方向,依次读取报文头部数据;读取到所述字符,则将位于所述字符后的报文头部数据划分到段落表格的下一行,直至段落表格中的每一行内的报文头部数据不再包含所述字符为止。
3.根据权利要求2所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述字符包括空格或者标点符号。
4.根据权利要求1所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述根据所述初始词和预设的词频逆文档频率模型得到目标词包括:
判断初始词在词频逆文档频率模型中出现的次数,将初始词出现的次数由多至少进行排序得到第一列表;
调取预设的无效词库,无效词库中:初始词的出现频率越高,则重要性越低;
将出现在无效词库中的初始词剔除出第一列表得到目标词。
5.根据权利要求1所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述词向量模型包括词袋模型;
所述根据所述目标词和预设的词向量模型得到最终词包括:
获取目标词;
为所述目标词匹配对应的中心词;
赋予目标词与中心词相同的向量,将目标词的向量标记为最终词。
6.根据权利要求1所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述文档向量模型包括分布词袋版本的段落向量模型;
所述根据所述初始段落和预设的文档向量模型得到目标段落包括:
获取初始段落;
将所述初始段落投影至预设的句子向量中,得到初始段落的向量;
输出初始段落的向量为目标段落。
7.根据权利要求1所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述根据所述最终词和所述目标段落得到最终报文头部数据包括:
对所述最终词和目标段落进行归一化处理;
将最终词和目标段落聚合到一个向量中,得到最终报文头部数据。
8.根据权利要求1所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述随机森林模型包括多棵决策树,所述决策树包括内部节点和叶节点;
所述内部节点用于确定输入决策树中的特征的纵向匹配顺序,且所述内部节点处还设置有特征与叶节点的对应关系;所述特征为最终报文头部数据中的向量;
所述叶节点包括多种资产标签,一种所述资产标签对应一种网络资产类型。
9.根据权利要求8所述的基于自然处理特征工程的网络资产识别方法,其特征在于,所述根据所述最终报文头部数据在预设的随机森林模型中匹配得到资产标签包括:
提取所述最终报文头部数据的特征;
将所述特征输入多棵所述决策树中;
汇总多棵所述决策树输出的网络资产类型;
选择并输出数量最多的网络资产类型作为最终报文头部数据的网络资产类型。
10.一种基于自然处理特征工程的网络资产识别系统,其特征在于,包括:
数据获取模块(31),用于获取报文头部数据;
第一处理模块(32),用于根据所述报文头部数据和预设的划分模型得到初始段落;
第二处理模块(33),用于根据所述初始段落得到初始词;
第三处理模块(34),用于根据所述初始词和预设的词频逆文档频率模型得到目标词;
第四处理模块(35),用于根据所述目标词和预设的词向量模型得到最终词;
第五处理模块(36),用于根据所述初始段落和预设的文档向量模型得到目标段落;
第六处理模块(37),用于根据所述最终词和所述目标段落得到最终报文头部数据;
第七处理模块(38),用于根据所述最终报文头部数据在预设的随机森林模型中匹配得到网络资产类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南华顺信安科技有限公司,未经湖南华顺信安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211529784.8/1.html,转载请声明来源钻瓜专利网。