[发明专利]一种半结构化流量数据中的目标信息定位方法及系统有效
申请号: | 202110626549.1 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113220943B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 支凤麟;周立人;蔡晓华 | 申请(专利权)人: | 上海天旦网络科技发展有限公司 |
主分类号: | G06F16/81 | 分类号: | G06F16/81;G06F16/84;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 200086 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 流量 数据 中的 目标 信息 定位 方法 系统 | ||
本发明提供了一种半结构化流量数据中的目标信息定位方法及系统,包括以下步骤:基于半结构数据路径的流量哈希和聚类;基于结构向量化的信息预对准;基于流量哈希与对准信息的快速目标信息定位。本发明使用“相似性哈希的方法”对流量数据的结构信息进行编码,实现流量结构信息相似性的快速比较;使用“翻译嵌入模型”对流量信息的数据域进行编码,实现不同流量中相似数据域对应关系的建立;根据流量结构的“哈希”辨别特定流量,获取该特定流量与其他流量之间的数据域的对应关系,实现快速定位目标信息。
技术领域
本发明涉及数据处理领域,具体地,涉及一种半结构化流量数据中的目标信息定位方法及系统。
背景技术
流量数据中特定信息的识别是系统状态监控、信息过滤、入侵检测等诸多工作的核心步骤之一。实现识别通常有基于规则的、启发式的、机器学习的几类方法来实现。其中基于规则的方法具有“准确率高,召回率低”的特点;启发式方法相对前者在召回率上有所提高,但依然还不够鲁棒;基于机器学习的方法在泛化性、准确性上具有较好的效果,但其在执行时所需计算量较大,在速度方面有一定的欠缺。
在公开号为CN111797279A的中国发明专利申请文件中,公开了一种存储数据的方法及装置,其中,该存储数据的方法包括:针对待存储半结构化数据集中的每条半结构化数据,依据该半结构化数据包含的字段,对该字段包含的内容进行编码,得到编码字段内容;分别以各字段为列构建数据库表,将半结构化数据对应的各编码字段内容存储至数据库表中该半结构化数据对应的行列,每条半结构化数据对应数据库表中的一行;将构建的数据库表存储至关系型数据库。可以提高数据的挖掘价值。
在网络流量中,有不少应用层流量所包含的信息是半结构化的,如JSON、XML等。现有的针对半结构化流量数据中目标信息的定位在泛化性、准确性和执行速度上仍有待提高。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种半结构化流量数据中的目标信息定位发方法及系统。
根据本发明提供的一种半结构化流量数据中的目标信息定位方法,包括以下步骤:
步骤S1:基于半结构数据路径的流量哈希和聚类,将流量信息用哈希码表示,并基于此哈希编码进行聚类;
步骤S2:基于结构向量化的信息预对准,计算出不同类型流量数据之间的结构对应关系,用于后续步骤中加速目标信息的定位;
步骤S3:基于流量哈希与对准信息的快速目标信息定位,对半结构化流量中目标信息的定位。
优选的,所述步骤S1包括以下子步骤:
步骤S1.1:读取半结构化流量数据记录,分析每个半结构化流量中的结构化部分,解析出包括以XML、Json数据交换格式编码的半结构数据;
步骤S1.2:对于半结构化流量数据,生成从数据的最外层结构到每个叶结点内容的路径,将路径构成的集合记为Set_trail;
步骤S1.3:对Set_trail中每个元素,进行哈希编码;
步骤S1.4:将Set_trail中所有元素的hash_trail进行按位累加,将累加结果向量中大于0的项改写为1,其余改写为0,最终得到该半结构化流量数据记录的哈希编码,记为hash_flow;
步骤S1.5:读取一定量的结构化流量数据,使用步骤S1.1-步骤S1.4的方法生成每一条记录hash_flow,构成hash_flow的集合,记为Set_hash;
步骤S1.6:对Set_hash中的数据进行聚类,得到聚类结果Set_cluster。
优选的,所述步骤S1.2中路径的表示方法包括列表,列表中的每个元素都是上层结构的名称或者属性的名称。
优选的,所述步骤S1.3包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海天旦网络科技发展有限公司,未经上海天旦网络科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110626549.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双层互强化的蛋白质三维结构预测方法及系统
- 下一篇:铝型材复合仿形铣床
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置