[发明专利]一种基于关键字词频特征的多模式匹配方法有效
申请号: | 201510755911.X | 申请日: | 2015-11-09 |
公开(公告)号: | CN105373601B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 何睿;吴昊;汪立东;何清林;马秀娟;张良;张露晨;李晓倩;孙昊良 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/245 | 分类号: | G06F16/245;G06F21/55 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键字 词频 特征 模式 匹配 方法 | ||
1.一种基于关键字词频特征的多模式匹配方法,包括以下步骤:
S21初始化二叉树;
S22输入待匹配模式串后开始匹配;
S23若匹配成功则判断匹配成功节点是否含有模式串结束标志,若是则输出模式串,若否则判断匹配成功节点的左分支节点是否存在,若是则将指针指向其左分支节点并返回S22,若否则结束匹配;若匹配失败则判断匹配失败节点的右分支节点是否存在,若是则将指针指向其右分支节点并返回S22,若否则结束匹配;
S24判断指针移动后是否超出待匹配模式串串尾,若否则返回S22,若是则结束匹配;
其中,所述初始化二叉树包括:
A)假设有定义在字符集Σ上的模式串集合K={s1,s2,s3,…,sn},其中,s1,s2,s3,…sk…,sn表示从已知数据库中提取的模式串,n表示模式串数量,其取值范围与计算机性能相关;用K中的模式串生成二叉树,并记第i层的左起第j个节点为aij,其中i,j=0,1,2,……,将同一模式中的字符所在节点标记为fk,并将终结字符节点标记为ok,其中k表示模式串集合中的第k个字符串,k=1,2,……,n;
B)统计模式串sk出现的频率pk,并将频率pk作为模式串sk的词频加入含有ok标记的节点;
C)设匹配一个字符的计算力是c,二叉树中最左分支由底向上的第一个分支节点为A,从A到输出其下m个分支中所有模式分别需要匹配节点lm次,m为A分支个数,由左向右对应模式sk,sk+1,……,sk+m-1;计算期望Em1=c*lk*pk+c*lk+1*pk+1+……+c*lk+m-1*pk+m-1;其中,c表示计算力,lk表示对应匹配模式sk所需匹配节点次数,pk表示sk所携带该模式词频信息;然后交换分支计算Em2,……,直至计算出最小期望EA=min{Em1,Em2,……},此时由右向左对应模式s’k,s’k+1,……,s’k+m-1;
D)由左向右由底向上依次找出A之外的所有节点并按上述方式进行二叉树的重构,当根节点计算完毕并交换分支后,即得到最终的二叉树。
2.如权利要求1所述的基于关键字词频特征的多模式匹配方法,其特征在于,步骤C)中所述最左分支包含根节点、根节点的左分支节点以及该左分支节点的左分支节点和其后左分支节点。
3.如权利要求1所述的基于关键字词频特征的多模式匹配方法,其特征在于,步骤A)中生成二叉树的规则为:根据模式串集合的初始词频信息将模式串按词频由高到低顺序排列,并依次插入二叉树,同时将模式串信息加入模式串末位字符节点中,并在该末位字符节点设置模式串结束标志;首次插入的模式串中,后插入的字符节点作为先插入的字符节点的左分支节点;若两模式串前缀相同,则将后插入的模式串的首个不相同节点作为先插入的模式串的首个不相同节点的右分支节点插入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510755911.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种转向灯失效模式的应急控制装置和方法
- 下一篇:一种监控程序的方法及系统