[发明专利]一种敏感词检测过滤方法、装置与电子设备有效
申请号: | 201910561689.8 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110457428B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 游福成;王少梅;赵帅 | 申请(专利权)人: | 北京印刷学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎 |
地址: | 102600 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 检测 过滤 方法 装置 电子设备 | ||
本发明公开了一种敏感词检测过滤方法、装置与电子设备,能够准确高效快速检测并过滤隐含在藏头诗中敏感词。所述敏感词检测过滤方法包括:构建动态敏感词库;获取待测文本并对其进行预处理得到待筛选文本;根据诗文形式特征对待筛选文本进行判定并筛选出诗文句段;根据藏头诗形式特征从诗文句段中提取出目标句段并通过分词处理得到关键词;将关键词动态敏感词库进行匹配检测,根据匹配检测结果确定敏感度值,依此对所述关键词进行过滤。所述装置包括:敏感词库模块,预处理模块,诗文句段模块,目标句段模块,分词模块,匹配检测模块与过滤模块。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
技术领域
本发明涉及网络信息安全领域,特别是指一种敏感词检测过滤方法、装置与电子设备。
背景技术
自媒体时代,自媒体出版和用户评论过程中,由于自媒体网络的开放性和广泛性,信息传播速度快、范围广、影响大。信息传播的过程中不可避免会出现敏感信息,敏感信息一旦传播出去,舆情控制难度大,负面影响大。最好的方法就是在带有敏感信息的内容发布之前将其中的敏感信息进行检测过滤,把舆情负面影响扼杀在萌芽状态。
发明人通过对现有的对敏感词进行检测过滤方法的分析了解,发现现有技术中至少存在以下问题:
由于中文语言的复杂性,一些特殊存在形式的敏感词很难被发觉,其中一种就是隐含在藏头诗中敏感词,针对这种敏感词的检测,现有技术中往往只能依赖人工检测,存在检测效率低、结果不可靠的问题。现有的敏感词检测过滤工作中,更加侧重于检测手段的更新,针对藏头诗中的敏感词,现有敏感词检测过滤方法无法实现对其进行检测。
发明内容
有鉴于此,本发明的目的在于提出一种能够准确高效快速检测并过滤隐含在藏头诗中敏感词的敏感词检测过滤方法、装置与电子设备。
基于上述目的,本发明提供了一种敏感词检测过滤方法,其特征在于,包括:
构建周期性更新的动态敏感词库;
获取待测文本,对所述待测文本进行预处理得到待筛选文本;
根据诗文形式特征对所述待筛选文本进行判定,并根据判定结果筛选得到诗文句段;
根据藏头诗形式特征从所述诗文句段中提取得到目标句段;
对所述目标句段进行分词处理,得到构成所述目标句段的多个关键词;
将多个所述关键词与所述动态敏感词库进行匹配检测;
根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。
可选的,所述构建周期性更新的动态敏感词库,包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;
设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类。
可选的,所述对所述待测文本进行预处理得到待筛选文本,包括:
根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京印刷学院,未经北京印刷学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910561689.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索语句处理方法
- 下一篇:一种基于全文搜索引擎的车牌号检索方法