[发明专利]一种快速内容分析的多关键词匹配方法无效

专利信息
申请号: 200710119845.2 申请日: 2007-08-01
公开(公告)号: CN101359325A 公开(公告)日: 2009-02-04
发明(设计)人: 叶润国;华东明;李博;胡振宇 申请(专利权)人: 北京启明星辰信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市商泰律师事务所 代理人: 毛燕生
地址: 100094北京市海淀区东北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 快速 内容 分析 关键词 匹配 方法
【说明书】:

技术领域

发明涉及内容分析技术领域,具体涉及一种快速内容分析的多关键词匹配方法。

背景技术

多关键词匹配(Multiple Pattern String Matching)是计算机科学领域中的基本问题之一。其解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。多关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、信息检索和病毒检测等领域。

目前涌现出了大量多关键词匹配算法,包括Aho-Corasick[1]、Wu-Manber[2]和E2XB[3]等(引用的所有文献出处位于背景技术结尾处)。这些多关键词匹配算法都存在一个理想的应用条件,比如,Aho-Corasick算法的最佳应用条件为小数量短关键词场合,Wu-Manber的最佳应用条件为中等数量长关键词应用场合,E2XB的最佳应用为入侵检测场合。这些多关键词匹配算法在大数量长关键词应用场合下效果并不理想,因此并不适合实时病毒检测类应用场合。实时病毒检测类应用场合下的多关键词匹配具有如下特点:1)关键词数量非常大,一般在6万到20万条左右;2)关键词长度一般比较大,最小为8字节;3)待检测文本长度较大,从几千字节到几兆字节不等;4)待检测文本与任何关键词匹配的成功概率异常低。

文献[4]给出了一种针对病毒检测类应用场合多关键词匹配特点而设计的多关键词匹配方法:HASH-AV,它构建一个可容纳于现代CPU高速缓存中的Bloom Filter(布隆过滤器),并巧妙设计了一组Bloom Filter散列函数,通过依次调用该组散列函数来实现当前窗口中文本串不与任一关键词匹配的快速判定。由于病毒检查等应用场合下,文本数据流与任一关键词匹配的概率异常低,绝大多数情况下这种基于Bloom Filter的快速判定都是成功的,因此并不需要执行代价昂贵的全关键词比较操作。与其它关键词匹配方法相比,该关键词匹配方法更多地考虑了病毒检测领域独有的特性,在病毒检测应用场合表现出了较好的扫描速率;但该方法仍然是一种线性的关键词匹配方法,它无法实现文本匹配窗口的连续多字节跳跃。

背景技术中引用的文献列表如下:

1)A.V.Aho,M.J.Corasick.Efficient String Matching:An Aid toBibliographic Search,(中文名称:一种用于目录搜索的高效的字符串匹配方法)Communications of the ACM,1975,18(6):333-340

2)S.Wu,U.Manber.A Fast Algorithm For Multi-Pattern Searching(中文名称:一种快速的多模式匹配算法).Technical Report TR-94-17,University of Arizona.1994:1-11

3)K.G.Anagnostakis,S.Antonatos,M.Polychronakis,and E.P.Markatos.:A domain-specific string matching algorithm for intrusiondetection(中文名称:一种领域相关的为入侵检测设计得多模式匹配算法).In Proceedings of IFIP International Information SecurityConference(SEC′03),May2003

4)Erdogan,O.;Pei Cao,Hash-AV:fast virus signature scanning by cache-resident filters(中文名称:HASH-AV:一种采用缓存驻留过滤器的快速病毒特征扫描方法),Global Telecommunications Conference,2005.GLOBECOM apos;05.IEEE Volume3,Issue,28Nov.-2Dec.2005Page(s):6pp.

发明内容

本发明目的是克服现有技术的上述缺点,提供一种适合于实时病毒检测场合的多关键词匹配方法,它利用Bloom Filter(布隆过滤器)实现当前窗口中文本不与任何关键词匹配的快速判定,同时允许文本匹配窗口连续多字节跳跃。

本发明的目的是通过以下技术方案实现的:

一种快速内容分析的多关键词匹配方法,包括预处理阶段和模式匹配阶段,其中,

A)所述预处理阶段包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术有限公司,未经北京启明星辰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710119845.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top