[发明专利]一种分段模式匹配方法及其装置无效
申请号: | 200610159310.3 | 申请日: | 2006-09-27 |
公开(公告)号: | CN101154228A | 公开(公告)日: | 2008-04-02 |
发明(设计)人: | 张若渊;阙开良 | 申请(专利权)人: | 西门子公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 张亮 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分段 模式 匹配 方法 及其 装置 | ||
技术领域
本发明涉及计算机领域,特别涉及字符串模式匹配领域,具体来讲是一种分段模式匹配方法及其装置。
背景技术
现在,通过互联网,每一个人都能非常容易地发布自己的信息,这同时也意味着在互联网上充斥着海量的信息,而且这些信息是各种各样的。在这些信息当中,有许多有价值的信息,但是同时,更多的是一些垃圾信息,比如垃圾邮件等等。
在实际生活中,人们通常只是想阅读自己感兴趣的东西,而不想去阅读自己不感兴趣的东西。不幸的是,互联网本身并没有提供这种机制,所以,互联网的用户直接面临着在网上无限制传播的大量信息,会很容易地被信息流所淹没。面对这海量的信息,过滤是帮助人们获得有价值信息的有用工具,通过过滤,互联网的用户只需要花很少的时间就能获得自己感兴趣的信息;网络设备可以过滤掉有害信息,或者识别出特别的重要信息。模式匹配的算法解决了这个问题,在模式匹配中找到匹配集中最合适的关键字是十分重要的。多模式的匹配即是有K个模式P[1]...P[K]和一个文本T,寻找K个模式中的任何一个模式在T中是否出现以及出现的位置,1975年由A.V.Aho和M.J.Corasick公开了一种有限子动机的多模式匹配算法(AC算法),能够有效的对文本进行匹配和过滤,以使文献检索变得更加迅速。
图1为现有AC算法的模式匹配集和示意图。图中虚线方框内的就是匹配的模式。规定模式的集合为:
P1:*/movie/*
P2:*/music/*
P3:*/root/public/*
P4:*/movie/comedy/*
其中通配符“*”在两端的意思为,以这些模式为关键字,可能出现在一个字符串或者文本的任意部分。对于AC算法来说,它的处理方法是基于一个关键字树,这个关键字树由匹配集合中的所有关键字构成,每个节点分支的判断条件都是一个字符。当对一字符串进行分析时,该字符串逐字符穿过关键字树直到整个字符串都被分析完成为止。由一个状态机对关键字树进行匹配操作,关键字树的每一个节点都为有限状态机的一个可能状态。其中,节点为静态的,是可能的状态的描述,而状态是状态机在某一特定时刻的描述。
中国专利200410023142,一种基于特征值的多模式匹配算法及硬件实现专利,公开了一种对信息进行两次匹配的方法,先滤除一些不重要的信息,对感兴趣的信息进行第二次滤除,但是该方法需的存储器容量也很大,并且该方法的匹配速度不够理想。
发明内容
为了解决以上问题,本发明提供一种分段模式匹配方法,将格式化的字符串进行分段并进行模式匹配,以达到更快速的效果。
为了解决以上问题,本发明提供一种分段模式匹配装置,将字符串分段,并进行模式匹配以达到对硬件要求低的效果。
一种分段模式匹配方法,包括,
步骤1,根据模式字符串中的特殊符号或者根据语言结构将模式字符串划分成至少一个关键字字符串片段,由编译器利用现有匹配算法规则将所述关键字字符串片段生成关键字树,所述关键字树的每个节点都包含至少一个关键字字符串片段,该节点的分支条件是另一个关键字字符串片段;
步骤2,根据模式字符串中的特殊符号或者根据语言结构将用户输入的待处理字符串划分成至少一个待处理字符串片段,作为状态机的输入;
步骤3,由所述状态机根据所述现有匹配算法将所述待处理字符串片段在所述关键字树节点中进行匹配操作;
步骤4,如果在匹配的所述关键字树节点的数据结构中具有模式匹配成功的标志,则记录或者输出该匹配的模式ID;
步骤5,如果所有所述待处理的字符串片段处理完毕,则结束,否则在所述状态机中处理下一个所述待处理字符串片段,重复步骤3-5。
所述步骤3中,使用哈希算法或者二分法将待处理字符串片段与节点分支条件进行字符串之间的匹配。
还包括一排序步骤,
在步骤1中,将待处理字符串分段后,由一排序单元将所述关键字字符串片段按照预定的顺序排序,并输入所述编译器,由所述编译器生成关键字树;
在步骤2中,将待处理字符串分割成至少一个待处理字符串片段后,由所述排序单元将所述待处理字符串片段按照所述预定顺序输入所述状态机,以进行步骤3至步骤5。
还包括一合并步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西门子公司,未经西门子公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610159310.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于制造具有例如TCO无机涂层的箔片的方法
- 下一篇:显示仪器