[发明专利]一种敏感词检测过滤方法、装置与电子设备有效
申请号: | 201910561689.8 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110457428B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 游福成;王少梅;赵帅 | 申请(专利权)人: | 北京印刷学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎 |
地址: | 102600 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 检测 过滤 方法 装置 电子设备 | ||
1.一种敏感词检测过滤方法,其特征在于,包括:
构建周期性更新的动态敏感词库;
获取待测文本,对所述待测文本进行预处理得到待筛选文本;
根据诗文形式特征对所述待筛选文本进行判定,并根据判定结果筛选得到诗文句段;所述根据诗文形式特征对所述待筛选文本进行判定,并根据判定结果筛选得到诗文句段,包括:
利用语义分析技术,根据所述待筛选文本中的标点符号,对所待筛选文本进行分句处理;
若出现连续至少四句长度相同的句子,则截选所述连续至少四句长度相同的句子作为等长句段;
根据所述等长句段的文字拼音信息,判断所述等长句段是否符合诗歌的平仄规则与用韵规则,筛选符合诗歌平仄规则与用韵规则的所述等长句段,得到所述诗文句段;
根据藏头诗形式特征从所述诗文句段中提取得到目标句段;所述根据藏头诗形式特征从所述诗文句段中提取得到目标句段,包括:
提取所述诗文句段中每句的首字符,依次连接得到与藏首型藏头诗相应的所述目标句段;
提取所述诗文句段中每句的尾字符,依次连接得到与藏尾型藏头诗相应的所述目标句段;
提取所述诗文句段中每句的中间字符,依次连接得到与涵中型藏头诗相应的所述目标句段;
提取所述诗文句段中第一句的首尾字符和最后一句的首尾字符,依次连接得到与涵角型藏头诗相应的所述目标句段;
将所述诗文句段按行并排排列,提取所述诗文句段中的对角字符,依次连接得到与斜梯型藏头诗相应的所述目标句段;
对所述目标句段进行分词处理,得到构成所述目标句段的多个关键词;
将多个所述关键词与所述动态敏感词库进行匹配检测;
根据匹配检测结果计算所述待测文本的敏感度值,根据所述敏感度值对所述待测文本中的所述关键词进行过滤。
2.根据权利要求1所述的方法,其特征在于,所述构建周期性更新的动态敏感词库,包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;
设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类。
3.根据权利要求2所述的方法,其特征在于,所述对所述待测文本进行预处理得到待筛选文本,包括:
根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
去除所述待测文本中的无意义标记和连接字符得到所述待筛选文本,所述无意义标记包括HTML标签和注释,所述连接字符包括语气助词、特殊符号和数字。
4.根据权利要求1所述的方法,其特征在于,对所述目标句段进行分词处理,得到构成所述目标句段的多个关键词,包括:
采用基于词典的中文分词技术对所述目标句段进行分词处理,得到用以组成所述目标句段的多个所述关键词; 所述中文分词技术中所用到的词典包含有所述动态敏感词库中的所有敏感词。
5.根据权利要求1所述的方法,其特征在于,所述将多个所述关键词与所述动态敏感词库进行匹配检测,包括:
根据所述关键词的第一个字符的拼音首字母从所述动态敏感词库中选取相应的敏感词分类;
从所述关键词的第一个字符开始,在所述相应的敏感词分类中筛选出与所述关键词的第一个字符相匹配的敏感词,再从筛选出的所述敏感词中继续筛选与所述关键词下一个字符相匹配的敏感词,直至筛选出与所述关键词的最后一个字符相匹配的所述敏感词;
检测所述筛选出的与所述关键词最后一个字符匹配的敏感词中是否存在与所述关键词字符个数相同的敏感词,若存在则说明所述关键词为敏感词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京印刷学院,未经北京印刷学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910561689.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索语句处理方法
- 下一篇:一种基于全文搜索引擎的车牌号检索方法