[发明专利]一种基于关键字词频特征的多模式匹配方法有效

专利信息
申请号: 201510755911.X 申请日: 2015-11-09
公开(公告)号: CN105373601B 公开(公告)日: 2019-05-21
发明(设计)人: 何睿;吴昊;汪立东;何清林;马秀娟;张良;张露晨;李晓倩;孙昊良 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F16/245 分类号: G06F16/245;G06F21/55
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 余长江
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于关键字词频特征的多模式匹配方法,首先从已知的信息数据库中提取关键字并统计出现频率作为其词频信息,其次采用构造含有关键字词频信息的二叉树完成其中的模式串匹配,在字符匹配过程中若出现字符不相等,则与该不匹配字符所在节点的兄弟节点所含字符进行匹配。其利用信息来源的模式的关键字词频信息构造基于字典树的二叉树完成其中的模式串的匹配,并与AC算法进行了比较。传统的AC算法需要维护三张表,并且在模式匹配过程中会频繁访问这三张表;本发明的一种基于关键字词频特征的多模式匹配方法更多的利用了模式本身的词频信息,并不需要维护过多的信息,这就大大减少了系统的内存消耗。
搜索关键词: 一种 基于 关键字 词频 特征 模式 匹配 方法
【主权项】:
1.一种基于关键字词频特征的多模式匹配方法,包括以下步骤:S21初始化二叉树;S22输入待匹配模式串后开始匹配;S23若匹配成功则判断匹配成功节点是否含有模式串结束标志,若是则输出模式串,若否则判断匹配成功节点的左分支节点是否存在,若是则将指针指向其左分支节点并返回S22,若否则结束匹配;若匹配失败则判断匹配失败节点的右分支节点是否存在,若是则将指针指向其右分支节点并返回S22,若否则结束匹配;S24判断指针移动后是否超出待匹配模式串串尾,若否则返回S22,若是则结束匹配;其中,所述初始化二叉树包括:A)假设有定义在字符集Σ上的模式串集合K={s1,s2,s3,…,sn},其中,s1,s2,s3,…sk…,sn表示从已知数据库中提取的模式串,n表示模式串数量,其取值范围与计算机性能相关;用K中的模式串生成二叉树,并记第i层的左起第j个节点为aij,其中i,j=0,1,2,……,将同一模式中的字符所在节点标记为fk,并将终结字符节点标记为ok,其中k表示模式串集合中的第k个字符串,k=1,2,……,n;B)统计模式串sk出现的频率pk,并将频率pk作为模式串sk的词频加入含有ok标记的节点;C)设匹配一个字符的计算力是c,二叉树中最左分支由底向上的第一个分支节点为A,从A到输出其下m个分支中所有模式分别需要匹配节点lm次,m为A分支个数,由左向右对应模式sk,sk+1,……,sk+m‑1;计算期望Em1=c*lk*pk+c*lk+1*pk+1+……+c*lk+m‑1*pk+m‑1;其中,c表示计算力,lk表示对应匹配模式sk所需匹配节点次数,pk表示sk所携带该模式词频信息;然后交换分支计算Em2,……,直至计算出最小期望EA=min{Em1,Em2,……},此时由右向左对应模式s’k,s’k+1,……,s’k+m‑1;D)由左向右由底向上依次找出A之外的所有节点并按上述方式进行二叉树的重构,当根节点计算完毕并交换分支后,即得到最终的二叉树。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510755911.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top