[发明专利]一种面向文本信息的敏感词过滤方法在审

申请号：	201510083247.9	申请日：	2015-02-15
公开（公告）号：	CN104850574A	公开（公告）日：	2015-08-19
发明（设计）人：	白春玲	申请（专利权）人：	博彦科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京汲智翼成知识产权代理事务所(普通合伙) 11381	代理人：	陈曦;董烨飞
地址：	100094 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向文本信息敏感过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向文本信息的敏感词过滤方法，其特征在于包括以下步骤：

(1)接收用户的文本信息，验证所述文本信息的数据格式是否正确，若数据格式验证不通过，则回到步骤(1)；若通过验证，则转至步骤(2)；

(2)对所述文本信息进行语义分析：从所述文本信息中取出一个词组，与语义分析库中的所有词组进行匹配，得到所述词组的词重；按照所述词重的级别对所述文本信息的所有词组重新排序，将没有匹配到的词组按照原格式返回，把匹配到的词组的前后面加上分隔符；然后将排序后的文本信息转换成数组格式，其中将文本信息转换成数组格式的步骤为：把每个词组的第一个字组成数组的键，把所述每个词组做成多维数组或者一维数组，所述每个词组的值为整个词组；

(3)对所述数组格式的文本信息进行敏感词过滤；如果有敏感词存在，将匹配出的敏感词返回给用户；如果不存在，返回给用户一个空信息。

2.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(1)中，所述文本信息采用可扩展标记语言XML的数据格式，包括用户ID、过滤内容和签名三个参数。

3.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(2)中，采用正则方式把文本信息转换成数组格式。

4.如权利要求3所述的敏感词过滤方法，其特征在于，

所述步骤(2)中，采用贪婪匹配算法对数组格式的文本信息进行匹配。

5.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(3)中，从做完语义分析后的文本信息中，取出第一个字的首字母，并初始化首字母对应的敏感词库，逐级检索是否存在敏感词。

6.如权利要求5所述的敏感词过滤方法，其特征在于，

所述敏感词库包括一级敏感词库、二级敏感词库、三级敏感词库；其中，

所述一级敏感词库、所述二级敏感词库、所述三级敏感词库中分别存有26个敏感词表，所述26个敏感词表以首字母为表名。