[发明专利]一种比特数据特征挖掘方法、系统、设备及可读介质有效
申请号: | 201910789662.4 | 申请日: | 2019-08-26 |
公开(公告)号: | CN112104518B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 李雪;姚秀娟;王春梅;闫毅;高翔;范亚楠 | 申请(专利权)人: | 中国科学院国家空间科学中心 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06;G06K9/62 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;李彪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 比特 数据 特征 挖掘 方法 系统 设备 可读 介质 | ||
本发明公开了一种比特数据特征挖掘方法、系统、设备及可读介质,该方法包括:统计未知协议的通信数据中的长度为k的序列的出现位置,统计序列出现次数并排序;根据每个序列的出现位置计算相邻2个出现位置的位置间隔值,统计各位置间隔值的数量,获得优势位置间隔值;根据优势位置间隔值、其出现的次数以及数据库中数据的长度,计算优势位置间隔值出现的比例,对优势位置间隔值出现的比例和设定的阈值比较,根据比较结果确定频繁序列,将具有强关联规则的频繁序列归纳为极大频繁模式集;根据极大频繁模式集提取极大频繁项,将极大频繁项与协议的特征集合对比,查找与极大频繁项符合的协议特征项,获得比特数据单元采用的协议特征和数据格式信息。
技术领域
本发明属于信息识别技术领域,具体而言,涉及一种比特数据特征挖掘方法、系统、设备及可读介质。
背景技术
随着人类探索空间活动的日益频繁,通讯协议种类日益增多,不同国家不同项目所选用的通信协议通常有或大或小的差异。面向建立空地一体化通信网络的迫切需求,为了解决因协议未知而造成的通信障碍,信息捕获不足等问题,协议特征信息识别技术研究成为一个重要的课题。通过对现有通信协议的数据结构进行研究可知,数据单元中通常都含有具有特定意义的标识序列,例如同步字、各类标识符、编码后的特征序列等。这类序列通常位于数据单元的固定位置,因此一般呈规律性地出现,识别这些特征序列对未知协议的识别具有重要意义。
关联规则挖掘是数据挖掘研究的一个重要分支,关联规则挖掘是在数据中查找存在于项目集合中的频繁模式、关联、相关性或因果结构。关联规则挖掘中的关键步骤之一即为频繁项集的挖掘,关联规则挖掘效率的关键也由频繁项集的挖掘算法决定。现有的经典频繁项集挖掘算法包含Apriori算法、Partition算法、FP-Growth 算法等。Apriori算法是一种发现频繁项集的重要经典算法,算法利用“频繁项集的所有非空子集也一定是频繁的”这一先验性质,使用逐层搜索的迭代方法。随后,为了降低Apriori算法产生候选集的数量和扫描数据库的次数,先后出现了基于散列、事物剪枝、数据库分区、抽样、动态项集计数以及建立压缩性的数据结构等优化算法。Partition算法就是其中基于数据库分区的优化算法,该算法分块应用Apriori算法,需要遍历数据库两次,降低了扫描数据库的次数。FP-growth算法为了压缩被搜索的数据集大小,在内存中构造了一个FP-tree,将数据库中的项目以共享前缀的方式压缩到FP-tree上,该算法也仅需扫描两次数据库,FP-growth算法对于挖掘长的频繁模式和短的频繁模式都是有效的和可伸缩的,并且比Apriori算法快一个数量级。
上述算法直接应用于链路特征序列识别存在不足之处:利用Apriori算法会产生大量的候选项集,在数据文件较大时,重复扫描数据文件也会造成极大的资源开销;Partition算法虽然很好地解决了多次重复扫描数据库造成的资源开销问题,但在事务边际模糊的情况下,不能直接应用于频繁序列挖掘;FP-growth算法中能显著压缩数据存储空间的FP-tree结构,在面对通信数据特征字识别的情况下,也会失去优势,这是因为通信协议中的数据帧长度较长。具体分析如下:假设数据库包含的项集为 I={i1,i2,...,iq},当数据库事务集具有互异性时,事务包含的项最多为q则经过推导计算,q个项可能产生的事务构成的最大FP树占用的空间SPACEset仅与项的种类q有关,为
与项集不同,数据单元本身具有有序性且包含的序列不具备互异性,因此在构建的FP树是q叉树满树,最大占用空间SPACEsequence不仅与字符集q大小有关,还与数据单元长度n有关,为
可以明显看出,数据FP树的空间占用度随着数据单元长度的增加呈指数上升,当q、n较大时,非常容易造成FP树占用存储空间过大的情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院国家空间科学中心,未经中国科学院国家空间科学中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910789662.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置