[发明专利]一种比特数据特征挖掘方法、系统、设备及可读介质有效

专利信息
申请号: 201910789662.4 申请日: 2019-08-26
公开(公告)号: CN112104518B 公开(公告)日: 2021-06-08
发明(设计)人: 李雪;姚秀娟;王春梅;闫毅;高翔;范亚楠 申请(专利权)人: 中国科学院国家空间科学中心
主分类号: H04L12/26 分类号: H04L12/26;H04L29/06;G06K9/62
代理公司: 北京方安思达知识产权代理有限公司 11472 代理人: 陈琳琳;李彪
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 比特 数据 特征 挖掘 方法 系统 设备 可读 介质
【说明书】:

发明公开了一种比特数据特征挖掘方法、系统、设备及可读介质,该方法包括:统计未知协议的通信数据中的长度为k的序列的出现位置,统计序列出现次数并排序;根据每个序列的出现位置计算相邻2个出现位置的位置间隔值,统计各位置间隔值的数量,获得优势位置间隔值;根据优势位置间隔值、其出现的次数以及数据库中数据的长度,计算优势位置间隔值出现的比例,对优势位置间隔值出现的比例和设定的阈值比较,根据比较结果确定频繁序列,将具有强关联规则的频繁序列归纳为极大频繁模式集;根据极大频繁模式集提取极大频繁项,将极大频繁项与协议的特征集合对比,查找与极大频繁项符合的协议特征项,获得比特数据单元采用的协议特征和数据格式信息。

技术领域

本发明属于信息识别技术领域,具体而言,涉及一种比特数据特征挖掘方法、系统、设备及可读介质。

背景技术

随着人类探索空间活动的日益频繁,通讯协议种类日益增多,不同国家不同项目所选用的通信协议通常有或大或小的差异。面向建立空地一体化通信网络的迫切需求,为了解决因协议未知而造成的通信障碍,信息捕获不足等问题,协议特征信息识别技术研究成为一个重要的课题。通过对现有通信协议的数据结构进行研究可知,数据单元中通常都含有具有特定意义的标识序列,例如同步字、各类标识符、编码后的特征序列等。这类序列通常位于数据单元的固定位置,因此一般呈规律性地出现,识别这些特征序列对未知协议的识别具有重要意义。

关联规则挖掘是数据挖掘研究的一个重要分支,关联规则挖掘是在数据中查找存在于项目集合中的频繁模式、关联、相关性或因果结构。关联规则挖掘中的关键步骤之一即为频繁项集的挖掘,关联规则挖掘效率的关键也由频繁项集的挖掘算法决定。现有的经典频繁项集挖掘算法包含Apriori算法、Partition算法、FP-Growth 算法等。Apriori算法是一种发现频繁项集的重要经典算法,算法利用“频繁项集的所有非空子集也一定是频繁的”这一先验性质,使用逐层搜索的迭代方法。随后,为了降低Apriori算法产生候选集的数量和扫描数据库的次数,先后出现了基于散列、事物剪枝、数据库分区、抽样、动态项集计数以及建立压缩性的数据结构等优化算法。Partition算法就是其中基于数据库分区的优化算法,该算法分块应用Apriori算法,需要遍历数据库两次,降低了扫描数据库的次数。FP-growth算法为了压缩被搜索的数据集大小,在内存中构造了一个FP-tree,将数据库中的项目以共享前缀的方式压缩到FP-tree上,该算法也仅需扫描两次数据库,FP-growth算法对于挖掘长的频繁模式和短的频繁模式都是有效的和可伸缩的,并且比Apriori算法快一个数量级。

上述算法直接应用于链路特征序列识别存在不足之处:利用Apriori算法会产生大量的候选项集,在数据文件较大时,重复扫描数据文件也会造成极大的资源开销;Partition算法虽然很好地解决了多次重复扫描数据库造成的资源开销问题,但在事务边际模糊的情况下,不能直接应用于频繁序列挖掘;FP-growth算法中能显著压缩数据存储空间的FP-tree结构,在面对通信数据特征字识别的情况下,也会失去优势,这是因为通信协议中的数据帧长度较长。具体分析如下:假设数据库包含的项集为 I={i1,i2,...,iq},当数据库事务集具有互异性时,事务包含的项最多为q则经过推导计算,q个项可能产生的事务构成的最大FP树占用的空间SPACEset仅与项的种类q有关,为

与项集不同,数据单元本身具有有序性且包含的序列不具备互异性,因此在构建的FP树是q叉树满树,最大占用空间SPACEsequence不仅与字符集q大小有关,还与数据单元长度n有关,为

可以明显看出,数据FP树的空间占用度随着数据单元长度的增加呈指数上升,当q、n较大时,非常容易造成FP树占用存储空间过大的情况。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院国家空间科学中心,未经中国科学院国家空间科学中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910789662.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top