[发明专利]终端型号特征数据清洗系统及清洗方法有效
申请号: | 202011047024.4 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112217667B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 左瑞萍 | 申请(专利权)人: | 苏州迈科网络安全技术股份有限公司 |
主分类号: | H04L41/142 | 分类号: | H04L41/142;H04L69/22;G06F16/215;G06F40/216 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 215000 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 终端 型号 特征 数据 清洗 系统 方法 | ||
本发明揭示了一种终端型号特征数据清洗系统及清洗方法,方法包括如下步骤:S1、采集终端设备上网时所产生的报文信息并下发;S2、接收报文信息,从中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据;S3、发现终端型号特征数据中的有效特征并确定其有效性;S4、对终端型号特征数据进行调整,对终端型号特征数据进行补充;S5、对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。本发明大幅简化了特征提取过程,避免了人工的过度参与,不仅节约了企业内的人力资源,而且显著地提升了特征数据的处理效率。
技术领域
本发明涉及一种数据清洗系统及对应的清洗方法,具体而言,涉及一种在终端大数据分析过程中使用的终端型号特征数据清洗系统及清洗方法,属于数据分析技术领域。
背景技术
近年来,随着网络通讯技术的不断发展,各类智能化、功能化的网络终端快速推广,终端与平台、终端与终端之间的交互访问及信息处理也日益频繁。在这样的技术背景下,越来越多的互联网企业开始关注网络访问策略的问题,期望以更为高效、准确地方式实现对终端设备的识别访问。
终端型号识别技术作为各类网络访问策略的基础,也成为了各家互联网企业的研究重点。在目前的终端大数据分析过程中,对于终端型号的识别主要依赖于终端所产生的报文信息、想要实现对终端型号的识别就需要从中提取出对应的终端型号特征。
大体而言,对于终端型号特征的清洗与提取,其技术难点主要在于以下几个方面,首先,由于待处理的数据规模呈亿级且有时效限制,因此仅依靠人工根本无法在短时间内完成全部操作;此外,待处理的数据并无统一格式,对于数据清洗的效率及有效性无法保证。
在现有技术中,主要利用字符串聚合的方法提取终端型号特征,如有分隔符则按分隔符切分后聚合,再根据词频人工分析提取终端型号特征。但是在实际的操作过程中,现有操作的缺点也十分显著。当型号特征携带唯一标识且之间无分隔符时,特征信息很容易被忽略而埋没;当型号特征本身含有分隔符时,又很容易出现切分过度进而产生干扰特征的问题。并且,由人工确定型号特征有效性的过程十分繁复,操作时效率极低。
因此,如何提出一种全新的、终端型号特征数据清洗系统及清洗方法,以克服现有技术条件下所存在的诸多缺陷,也就成为了目前行业内技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种在终端大数据分析过程中使用的终端型号特征数据清洗系统及清洗方法,具体如下。
一种终端型号特征数据清洗系统,包括:
初始特征数据采集模块,用于采集终端设备上网时所产生的报文信息并下发;
特征数据分析清洗模块,用于接收报文信息,从报文信息中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据;
特征数据拓展信息采集模块,用于接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性;
特征数据规整模块,用于对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充;
特征数据入库模块,用于对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
优选地,所述特征数据分析清洗模块包括:
初次清洗单元,用于接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中;
前缀特征提取单元,用于从报文信息的指定字段的首部提取、生成终端型号特征数据。
优选地,所述前缀特征提取单元包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州迈科网络安全技术股份有限公司,未经苏州迈科网络安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011047024.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置