[发明专利]终端型号特征数据清洗系统及清洗方法有效
申请号: | 202011047024.4 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112217667B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 左瑞萍 | 申请(专利权)人: | 苏州迈科网络安全技术股份有限公司 |
主分类号: | H04L41/142 | 分类号: | H04L41/142;H04L69/22;G06F16/215;G06F40/216 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 215000 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 终端 型号 特征 数据 清洗 系统 方法 | ||
1.一种终端型号特征数据清洗系统,其特征在于,包括:
初始特征数据采集模块,用于采集终端设备上网时所产生的报文信息并下发;
特征数据分析清洗模块,其包括:
初次清洗单元,用于接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中;
前缀特征提取单元,包括:
参数输入子单元,用于输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
切分聚合子单元,用于依照终端型号特征的最大长度smax对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;若初步词频结果不大于词频阈值num,将切分长度减1、直至切分长度达到终端型号特征的最小长度smin;
阈值判断子单元,用于判断初步词频结果是否大于词频阈值num;
结果生成子单元,若初步词频结果大于词频阈值num,用于生成疑似的终端型号特征数据与数量间的对应关系并输出;
特征数据拓展信息采集模块,用于接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性;
特征数据规整模块,用于对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充;
特征数据入库模块,用于对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
2.一种终端型号特征数据清洗方法,使用如权利要求1所述的终端型号特征数据清洗系统,其特征在于,包括如下步骤:
S1、采集终端设备上网时所产生的报文信息并下发;
S2、接收报文信息,从报文信息中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据;
S3、接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性;
S4、对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充;
S5、对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
3.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S2包括如下步骤:
S21、接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中;
S22、从报文信息的指定字段的首部提取、生成终端型号特征数据。
4.根据权利要求3所述的终端型号特征数据清洗方法,其特征在于,所述S22包括如下步骤:
S221、输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
S222、将终端型号特征的最大长度smax作为切分长度、对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;
S223、判断初步词频结果是否大于词频阈值num,
若初步词频结果大于词频阈值num,则按序进入S224,
若初步词频结果不大于词频阈值num,则跳转返回S222,将切分长度减1、直至切分长度达到终端型号特征的最小长度smin;
S224、生成疑似的终端型号特征数据与数量间的对应关系并输出。
5.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S3包括如下步骤:利用python爬虫技术进行拓展信息采集,所述拓展信息包括搜索引擎相关词条、官方商城相关信息以及IEEE所签发的OUI列表。
6.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S4中所述模板至少包括如下信息:品牌、名称、类型以及价格。
7.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S5中所述特征规则验证的规则至少包括:指定字段的内容不能为空及终端类型必须包含于指定的终端类型中。
8.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S5中所述特征有效性验证的规则至少包括:新增特征是否可用及是否会产生误识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州迈科网络安全技术股份有限公司,未经苏州迈科网络安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011047024.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置