[发明专利]一种近似匹配方法和装置有效
申请号: | 200810148827.1 | 申请日: | 2008-09-27 |
公开(公告)号: | CN101369278A | 公开(公告)日: | 2009-02-18 |
发明(设计)人: | 薛一波;李雪;卞建光 | 申请(专利权)人: | 成都市华为赛门铁克科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
代理公司: | 北京挺立专利事务所 | 代理人: | 叶树明 |
地址: | 611731四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 近似 匹配 方法 装置 | ||
技术领域
本发明涉及通信技术领域,尤其涉及一种近似匹配方法和装置。
背景技术
随着全球计算机网络的飞速发展,网络技术的应用日益普及,已经深入到社会的各个领域中,给整个社会的经济、科技和文化带来了巨大的推动和冲击。然而,人们在得益于网络技术所带来的新的巨大机遇的同时,也不得不面对信息安全问题的严峻考验。通常网上伴随着众多有用信息的同时,也存在大量的不良信息。因此迫切需要新的技术和手段能快速准确实时地获得网络内容的动态及敏感信息。
传统的信息安全技术大多采用精确的特征串匹配方法来分析、收集及过滤敏感信息,采用这种技术仅能识别与特征集中规则一致的数据包。但是,随着使用者水平的提高,会有意对敏感信息进行变换,或者加一些通配符或无用字符等手段来规避检测,因此精确匹配方法对文本信息内容、黑客入侵等应用就无能为力。因此,开展近似模式匹配技术的研究和应用是信息安全的重要方向和迫切之需。
近似模式匹配又称为关键词近似匹配,也可以被称为“允许误差的关键词匹配”,目的是找到文本或网络内容中与关键词的差异在一定范围内的所有关键词的出现位置。这个差异可以量化命名为“距离”,也就是使两个关键词变为相同的最少操作次数,这里的一次操作可以是在关键词中任意的位置插入、删除或替换掉一个字符,这样的关键词近似匹配可称为基于编辑距离的近似匹配。多模式近似匹配需要解决的问题就是在各关键词给定的编辑距离下,快速而准确地判断待测文本或者网络内容中所有出现任意关键词的位置。
随着计算机应用和网络应用的普及,数据处理量日益增大。尤其是在网络应用环境中,存在大量的实时数据处理的需求。由于数据处理量和用户需求的不断增大,关键词数量也会不断的增大,规模常常达到上万级,甚至十万级。在这种情况下,已有的多模式近似匹配算法的匹配速度下降非常明显,影响了整个安全系统的性能,其极低的吞吐量已经很难满足文本或者网络内容处理的实用要求。
解决多模式近似匹配的问题可以通过许多不同的方法,过滤筛选法是其中应用较多的一种方法。过滤筛选法首先快速地过滤掉文本中哪些不可能产生成功匹配的区域,然后再对可能匹配的区域进行匹配验证,确定是否真的有匹配。基于过滤筛选法的MultiPEX算法是现存经典多模式近似匹配算法中应用最广泛的算法之一。
MultiPEX算法是对单模式近似匹配算法PEX算法在多关键词情况下的扩展。PEX算法的核心思想是对于编辑距离为k的情况,将关键词划分为k+1片,如果文本对于关键词近似匹配成功,则其中必至少有一片在文本中是精确匹配的,因为,在编辑距离模型下,k个错误不可能被分到k+1片中。MultiPEX算法匹配过程分为两个阶段:过滤阶段和验证阶段。在过滤阶段可以采用不同的精确匹配算法,在验证阶段可以采用不同的单模式近似匹配算法进行验证匹配。
在实现本发明的过程中,发明人发现现有技术中的实现方式存在以下问题:MultiPEX算法仅适用于模式数规模小的情况,当模式数达到1000条时,其匹配速度下降非常明显,因此MultiPEX在大规模特征数的情况下无法满足文本或网络内容处理的实用要求。
发明内容
本发明的实施例提供一种近似匹配方法和装置,能够适用于大规模关键词情况下的近似匹配处理。
本发明的实施例提供一种近似匹配方法,包括:
拆分关键词生成关键词子串集合,为所述关键词子串集合建立对应的表项,所述关键词子串集合中的关键词子串长度根据关键词的长度与最大允许的错误值获得;
根据所述表项将待匹配内容与所述关键词子串集合进行精确匹配;
对精确匹配成功的关键词子串对应的关键词和所述待匹配内容进行近似匹配验证,获得近似匹配结果。
本发明的实施例还提供一种匹配装置,包括:
预处理单元,用于拆分关键词并生成关键词子串集合,为所述关键词子串集合建立对应的表项,所述关键词子串集合中的关键词子串长度根据关键词的长度与最大允许的错误值获得;
精确匹配单元,用于根据所述预处理单元建立的表项将待匹配内容与所述关键词子串集合进行精确匹配;
近似匹配单元,用于对所述精确匹配单元精确匹配成功的关键词子串对应的关键词和所述待匹配内容进行近似匹配验证,获得近似匹配结果。
与现有技术相比,本发明的实施例具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都市华为赛门铁克科技有限公司,未经成都市华为赛门铁克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810148827.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:温湿独立控制的空调系统及制冷/除湿方法
- 下一篇:治疗恶性肿瘤的药物