[发明专利]一种敏感词匹配方法和系统无效
申请号: | 201110181501.0 | 申请日: | 2011-06-30 |
公开(公告)号: | CN102207979A | 公开(公告)日: | 2011-10-05 |
发明(设计)人: | 杨涛 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 匹配 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,特别是涉及一种敏感词匹配方法和系统。
背景技术
随着互联网信息的爆炸式发展,需要对互联网中的文本信息中的特定敏感词进行匹配过滤。
目前公知的敏感词汇匹配技术一般采用敏感词库中的词条向待判定信息全文匹配的方式进行的,具体为:把敏感词库中的所有词条依次向待判定信息进行比对,如果词条被完全包含在待判定信息中,则认为命中。
这样的匹配技术存在的问题是:需要把敏感词库中的每一个词条都依次与待判定信息进行从头到尾的尝试匹配,即需要遍历一遍敏感词库以及反复遍历待判定信息,即需要反复进行回溯。
此外,在前述方案的基础上有以下的改进方案:采用逐字匹配的方式进行匹配:在待判定信息中从头开始逐字拿出来与敏感词库中的词条的首字进行匹配,如果首字匹配成功,则将此词条的后续部分与待判定信息的后续部分进行匹配,如果全部匹配则认为命中。
这样的方案虽然较第一种方案得到的改进,但依旧存在以下问题:1、虽然待判定信息中不需要像方案一那样遍历(如果首字不命中,可直接开始判断下一个字),但是,在首字命中后仍然需要对首字的后续部分进行反复比较,还是存在回溯问题,所以性能存在问题。
发明内容
本发明提供了一种敏感词匹配方法,该方法能实现敏感词的快速匹配,提高了性能。
本发明还提供了一种敏感词的匹配系统,该系统能实现敏感词的快速匹配,提高了性能。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种敏感词匹配方法,根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,并保存这些DFA图,则对于给定的待判定信息,匹配敏感词的方法包括:
步骤1,取出待判定信息中的当前字;其中,首次取出的是待判定信息的首字,之后,每次取出待判定信息中的下一个字作为当前字;
步骤2,查询所保存的DFA图,判断是否有以该当前字为入口的DFA图,如果命中,则记录该DFA图以及该当前字处于该DFA图中的节点位置;
如果该当前字的上一个字有命中并记录的DFA图,则将该当前字与该DFA图中的上一个字所在节点的下一节点进行匹配,如果命中,则记录当前节点在该DFA图中的位置信息,如果没有命中,则从记录中删除该DFA图;
如果当前字有命中的DFA图,并且该命中的DFA图中当前字所在节点为出口节点,则确定待判定信息中存在敏感词汇,结束流程;
步骤3,如果还没有到待判定信息的最后一个字,则返回步骤1。
本发明还公开了一种敏感词匹配系统,该系统包括:DFA图生成模块、存储模块、匹配模块,其中:
DFA图生成模块,用于根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,并将这些DFA图保存到存储模块中;
存储模块,用于保存DFA图;
匹配模块,用于根据如下步骤对给定的待判定信息进行敏感词匹配:
步骤1,取出待判定信息中的当前字;其中,首次取出的是待判定信息的首字,之后,每次取出待判定信息中的下一个字作为当前字;
步骤2,查询所保存的DFA图,判断是否有以该当前字为入口的DFA图,如果命中,则记录该DFA图以及该当前字处于该DFA图中的节点位置;
如果该当前字的上一个字有命中并记录的DFA图,则将该当前字与该DFA图中的上一个字所在节点的下一节点进行匹配,如果命中,则记录当前节点在该DFA图中的位置信息,如果没有命中,则从记录中删除该DFA图;
如果当前字有命中的DFA图,并且该命中的DFA图中当前字所在节点为出口节点,则确定待判定信息中存在敏感词汇,结束流程;
步骤3,如果还没有到待判定信息的最后一个字,则返回步骤1。
由上述可见,本发明这种根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,并保存这些DFA图,则对于给定的待判定信息,从首字开始,逐字从DFA图的入口开始匹配,如果与节点匹配,则该节点继续往后走,直到到达该DFA图的出口,如果待判定信息能到达出口,则说明匹配敏感词命中的技术方案,由于对判定信息只遍历一遍,不需要反复遍历或者反复尝试匹配,不存在回溯问题,因此能实现敏感词的快速匹配,提高了性能。
附图说明
图1是本发明实施例中的DFA图的一个示意图;
图2是本发明实施例中的一种敏感词匹配系统的组成结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110181501.0/2.html,转载请声明来源钻瓜专利网。