[发明专利]一种大规模关键词匹配方法无效

专利信息
申请号: 200710122231.X 申请日: 2007-09-24
公开(公告)号: CN101398820A 公开(公告)日: 2009-04-01
发明(设计)人: 叶润国;周涛;华东明;孙海波;骆拥政;焦玉峰 申请(专利权)人: 北京启明星辰信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市商泰律师事务所 代理人: 毛燕生
地址: 100094北京市海淀区东北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 大规模 关键词 匹配 方法
【说明书】:

技术领域

发明涉及计算机内容分析技术领域,具体涉及一种快速内容分析的多关键词匹配方法。

背景技术

多关键词匹配(Multiple Pattern String Matching)解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。多关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、信息检索和病毒检测等领域。

传统多关键词匹配方法包括文献[A.V.Aho,M.J.Corasick.EfficientString Matching:An Aid to Bibliographic Search,(中文名称:一种用于目录搜索的高效的字符串匹配方法)Communications of the ACM,1975,18(6):333-340]、文献[S.Wu,U.Manber.A Fast Algorithm For Multi-Pattern Searching(中文名称:一种快速的多模式匹配算法).TechnicalReport TR-94-17,University of Arizona.1994:1-11]和文献[K.G.Anagnostakis,S.Antonatos,M.Polychronakis,and E.P.Markatos.:A domain-specific string matching algorithm for intrusion detection(中文名称:一种领域相关的为入侵检测设计得多模式匹配算法).In Proceedings of IFIPIntemational Information Security Conference(SEC′03),May 2003]等。这些文献涉及的多关键词匹配方法都存在一个理想的应用条件,比如,Aho-Corasick方法的最佳应用条件为小规模关键词场合,Wu-Manber的最佳应用条件为中等规模关键词应用场合,E2XB的最佳应用为入侵检测场合。这些多关键词匹配方法在大规模关键词应用场合下效果并不理想,并不适合实时病毒检测类应用场合。实时病毒检测类应用场合下的多关键词匹配具有如下特点:1)关键词数量非常大,一般在6万到20万条左右;2)关键词长度一般比较大,最小为8字节;3)待检测文本长度较大,从几千字节到几兆字节不等;4)待检测文本与任何关键词匹配的成功概率异常低。

文献[Erdogan,O.;Pei Cao,Hash-AV:fast virus signature scanning bycache-resident filters(中文名称:HASH-AV:一种采用缓存驻留过滤器的快速病毒特征扫描方法),Global Telecommunications Conference,2005.GLOBECOM apos;05.IEEE Volume 3,Issue,28 Nov.-2 Dec.2005 Page(s):6pp.]给出了一种针对病毒检测类应用场合多关键词匹配特点而设计的多关键词匹配方法:HASH-AV,它构建一个可容纳于现代CPU高速缓存中的布隆过滤器(Bloom Filter),并巧妙设计了一组布隆过滤器散列函数,通过依次调用该组散列函数来实现当前窗口中文本串不与任一关键词匹配的快速判定。由于病毒检查等应用场合下,文本数据流与任一关键词匹配的概率异常低,绝大多数情况下这种基于布隆过滤器的快速判定都是成功的,绝大多数时候并不需要执行代价昂贵的全关键词比较操作。与其它关键词匹配方法相比,该关键词匹配方法更多地考虑了病毒检测领域独有的特性,在病毒检测应用场合表现出了较好的扫描速率。利用布隆过滤器在判定某一元素是否属于指定元素集合时不存在漏报,但是可能存在误报,特别在布隆过滤器表示的元素集合较大时误报率更大。理论上来说,可以通过增大布隆过滤器的位串大小来降低误报,但是实际上很难达到效果,因为实际情况中构造的布隆过滤器散列函数并不具有较好的随机性。HASH-AV方法采用一个布隆过滤器来表示所要查找的关键词集合,我们在实验中发现,当HASH-AV中查找的关键词集合大于10万时,基于单一布隆过滤器执行当前文本不与任何关键词匹配判定的误报率较高,这直接影响了HASH-AV的关键词匹配效率;同时,在每次文本匹配窗口移动后,HASH-AV方法需要基于当前文本重新执行各布隆过滤器散列函数,而没有考虑当前文本串与上一窗口中文本串大部分相同这个特点。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术有限公司,未经北京启明星辰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710122231.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top