[发明专利]一种快速内容分析的多关键词匹配方法无效
申请号: | 200710119845.2 | 申请日: | 2007-08-01 |
公开(公告)号: | CN101359325A | 公开(公告)日: | 2009-02-04 |
发明(设计)人: | 叶润国;华东明;李博;胡振宇 | 申请(专利权)人: | 北京启明星辰信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市商泰律师事务所 | 代理人: | 毛燕生 |
地址: | 100094北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种快速内容分析的多关键词匹配方法。所述发明方法包括预处理阶段和模式匹配阶段。其中,所述的预处理阶段包括关键词特征串裁剪和关键词特征分片集合的构建、基于关键词特征分片集合的Bloom Filte(布隆过滤器)构造,以及原始关键词集合线性表构造,所述关键词匹配阶段包括:依据Bloom Filter实现当前窗口中文本串不与任何关键词特征分片匹配的快速判定;只在判定失败情况下通过字符串比较操作实现与候选关键词的精确匹配;将文本匹配窗口连续多字节快速跳跃。本发明充分利用了待匹配文本与关键词匹配成功概率异常低的特点,可实现大数量关键词场景下的高速匹配,非常适合病毒检测等在线病毒扫描应用。 | ||
搜索关键词: | 一种 快速 内容 分析 关键词 匹配 方法 | ||
【主权项】:
1.一种快速内容分析的多关键词匹配方法,包括预处理阶段和模式匹配阶段,其特征在于包括以下步骤:A)所述预处理阶段包括以下步骤:A1、根据设定的关键词特征串长度,对关键词集合中各关键词进行特征串抽取;A2、根据设定的文本匹配窗口跳跃步长,将各关键词特征串分割为多个指定长度子串,即关键词特征分片;A3、构造一个包含多个散列函数的Bloom Filter结构体,将分割出的所有关键词特征分片映射到Bloom Filter结构体中;A4、构造一个哈希表,将分割出的所有关键词特征分片映射到哈希表各单元中,对于具有哈希值冲突的元素,用链表方式串接起来;A5、构建一个包含所有原始关键词的线性表,在步骤A4中建立的关键词特征分片哈希表的各表项中包含对应原始关键词的索引号;B)所述模式匹配阶段包括以下步骤:B1、设置一个与关键词特征分片等长度的文本匹配窗口,首先将文本匹配窗口与待匹配文本左对齐;B2、以当前文本匹配窗口中文本串为输入,依次调用步骤A3中构造Bloom Filter时选择的散列函数组,并检查散列函数值对应的Bloom Filter位串中比特位值:如果值为0,则直接跳跃到步骤B5执行;如果值为1,则继续调用下一个散列函数;如果所有散列函数对应的Bloom Filter中的比特位均为1,则进入步骤B3;B3、依据文本匹配窗口中当前文本检索关键词特征分片哈希表,如果找到匹配的关键词特征分片表项,则执行步骤B4;如果未找到任何匹配表项,则直接跳跃到步骤B5执行;B4、根据关键词特征分片表项中的索引号从原始关键词线性表读取对应的原始关键词,并与当前匹配窗口处文本串进行全长度字符串比较,如果匹配成功则报告一个成功的关键词匹配事件;继续执行步骤B5;B5、将当前文本匹配窗口向右移动指定跳跃步长,并跳跃到步骤B2继续执行,直至整个文本扫描结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术有限公司,未经北京启明星辰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710119845.2/,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法