[发明专利]一种敏感词匹配方法和系统无效
申请号: | 201110181501.0 | 申请日: | 2011-06-30 |
公开(公告)号: | CN102207979A | 公开(公告)日: | 2011-10-05 |
发明(设计)人: | 杨涛 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 匹配 方法 系统 | ||
1.一种敏感词匹配方法,其特征在于,根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,并保存这些DFA图,则对于给定的待判定信息,匹配敏感词的方法包括:
步骤1,取出待判定信息中的当前字;其中,首次取出的是待判定信息的首字,之后,每次取出待判定信息中的下一个字作为当前字;
步骤2,查询所保存的DFA图,判断是否有以该当前字为入口的DFA图,如果命中,则记录该DFA图以及该当前字处于该DFA图中的节点位置;
如果该当前字的上一个字有命中并记录的DFA图,则将该当前字与该DFA图中的上一个字所在节点的下一节点进行匹配,如果命中,则记录当前节点在该DFA图中的位置信息,如果没有命中,则从记录中删除该DFA图;
如果当前字有命中的DFA图,并且该命中的DFA图中当前字所在节点为出口节点,则确定待判定信息中存在敏感词汇,结束流程;
步骤3,如果还没有到待判定信息的最后一个字,则返回步骤1。
2.根据权利要求1所述的方法,其特征在于,所述根据敏感词库中的所有敏感词生成多个DFA图包括:
扫描敏感词库中的所有敏感词汇,对于每个当前敏感词汇:
查看是否存在以当前敏感词汇的首字为入口的DFA图;
如果不存在,则创建以当前敏感词汇的首字为入口的DFA图,在该DFA图中:当前敏感词汇中的每个字对应一个节点,各节点的排序与各个对应的字在当前敏感词汇中的排序相同,当前敏感词汇中的最后一个字所对应的节点为该DFA图的出口节点;
如果存在,则依次判断当前敏感词汇首字之后的后续各字是否也在该DFA图中存在对应的节点,对于没有对应节点的字以及其后续的字,在该DFA图中添加对应的节点,并将当前敏感词汇中的最后一个字所对应的节点为该DFA图的又一个出口节点。
3.根据权利要求2所述的方法,其特征在于,所述根据敏感词库中的所有敏感词生成多个DFA图还包括:
在每个DFA图的相邻两个节点之间的连线边上设置去噪规则。
4.根据权利要求3所述的方法,其特征在于,步骤2还包括:
如果该当前字的上一个字有命中并记录的DFA图,则将该当前字与该DFA图中的上一个字所在节点的下一节点进行匹配之前,根据所述上一个字所在的节点与其下一节点之间的连线边上去噪规则判断当前字是否应该被忽略,是则直接执行步骤3,否则执行所述将该当前字与该DFA图中的上一个字所在节点的下一节点进行匹配的步骤。
5.根据权利要求1至4中任一项所述的方法,其特征在于,步骤2中,如果当前字有命中的DFA图,并且该命中的DFA图中当前字所在节点为出口节点,则确定待判定信息中存在敏感词汇之后,进一步包括:
将待判定信息在该命中的DFA图中的路径所对应的敏感词汇作为匹配到的敏感词汇进行输出。
6.一种敏感词匹配系统,其特征在于,该系统包括:DFA图生成模块、存储模块、匹配模块,其中:
DFA图生成模块,用于根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,并将这些DFA图保存到存储模块中;
存储模块,用于保存DFA图;
匹配模块,用于根据如下步骤对给定的待判定信息进行敏感词匹配:
步骤1,取出待判定信息中的当前字;其中,首次取出的是待判定信息的首字,之后,每次取出待判定信息中的下一个字作为当前字;
步骤2,查询所保存的DFA图,判断是否有以该当前字为入口的DFA图,如果命中,则记录该DFA图以及该当前字处于该DFA图中的节点位置;
如果该当前字的上一个字有命中并记录的DFA图,则将该当前字与该DFA图中的上一个字所在节点的下一节点进行匹配,如果命中,则记录当前节点在该DFA图中的位置信息,如果没有命中,则从记录中删除该DFA图;
如果当前字有命中的DFA图,并且该命中的DFA图中当前字所在节点为出口节点,则确定待判定信息中存在敏感词汇,结束流程;
步骤3,如果还没有到待判定信息的最后一个字,则返回步骤1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110181501.0/1.html,转载请声明来源钻瓜专利网。