[发明专利]一种快速内容分析的多关键词匹配方法无效
申请号: | 200710119845.2 | 申请日: | 2007-08-01 |
公开(公告)号: | CN101359325A | 公开(公告)日: | 2009-02-04 |
发明(设计)人: | 叶润国;华东明;李博;胡振宇 | 申请(专利权)人: | 北京启明星辰信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市商泰律师事务所 | 代理人: | 毛燕生 |
地址: | 100094北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 内容 分析 关键词 匹配 方法 | ||
技术领域
本发明涉及内容分析技术领域,具体涉及一种快速内容分析的多关键词匹配方法。
背景技术
多关键词匹配(Multiple Pattern String Matching)是计算机科学领域中的基本问题之一。其解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。多关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、信息检索和病毒检测等领域。
目前涌现出了大量多关键词匹配算法,包括Aho-Corasick[1]、Wu-Manber[2]和E2XB[3]等(引用的所有文献出处位于背景技术结尾处)。这些多关键词匹配算法都存在一个理想的应用条件,比如,Aho-Corasick算法的最佳应用条件为小数量短关键词场合,Wu-Manber的最佳应用条件为中等数量长关键词应用场合,E2XB的最佳应用为入侵检测场合。这些多关键词匹配算法在大数量长关键词应用场合下效果并不理想,因此并不适合实时病毒检测类应用场合。实时病毒检测类应用场合下的多关键词匹配具有如下特点:1)关键词数量非常大,一般在6万到20万条左右;2)关键词长度一般比较大,最小为8字节;3)待检测文本长度较大,从几千字节到几兆字节不等;4)待检测文本与任何关键词匹配的成功概率异常低。
文献[4]给出了一种针对病毒检测类应用场合多关键词匹配特点而设计的多关键词匹配方法:HASH-AV,它构建一个可容纳于现代CPU高速缓存中的Bloom Filter(布隆过滤器),并巧妙设计了一组Bloom Filter散列函数,通过依次调用该组散列函数来实现当前窗口中文本串不与任一关键词匹配的快速判定。由于病毒检查等应用场合下,文本数据流与任一关键词匹配的概率异常低,绝大多数情况下这种基于Bloom Filter的快速判定都是成功的,因此并不需要执行代价昂贵的全关键词比较操作。与其它关键词匹配方法相比,该关键词匹配方法更多地考虑了病毒检测领域独有的特性,在病毒检测应用场合表现出了较好的扫描速率;但该方法仍然是一种线性的关键词匹配方法,它无法实现文本匹配窗口的连续多字节跳跃。
背景技术中引用的文献列表如下:
1)A.V.Aho,M.J.Corasick.Efficient String Matching:An Aid toBibliographic Search,(中文名称:一种用于目录搜索的高效的字符串匹配方法)Communications of the ACM,1975,18(6):333-340
2)S.Wu,U.Manber.A Fast Algorithm For Multi-Pattern Searching(中文名称:一种快速的多模式匹配算法).Technical Report TR-94-17,University of Arizona.1994:1-11
3)K.G.Anagnostakis,S.Antonatos,M.Polychronakis,and E.P.Markatos.:A domain-specific string matching algorithm for intrusiondetection(中文名称:一种领域相关的为入侵检测设计得多模式匹配算法).In Proceedings of IFIP International Information SecurityConference(SEC′03),May2003
4)Erdogan,O.;Pei Cao,Hash-AV:fast virus signature scanning by cache-resident filters(中文名称:HASH-AV:一种采用缓存驻留过滤器的快速病毒特征扫描方法),Global Telecommunications Conference,2005.GLOBECOM apos;05.IEEE Volume3,Issue,28Nov.-2Dec.2005Page(s):6pp.
发明内容
本发明目的是克服现有技术的上述缺点,提供一种适合于实时病毒检测场合的多关键词匹配方法,它利用Bloom Filter(布隆过滤器)实现当前窗口中文本不与任何关键词匹配的快速判定,同时允许文本匹配窗口连续多字节跳跃。
本发明的目的是通过以下技术方案实现的:
一种快速内容分析的多关键词匹配方法,包括预处理阶段和模式匹配阶段,其中,
A)所述预处理阶段包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术有限公司,未经北京启明星辰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710119845.2/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法