[发明专利]一种敏感词的处理方法及处理装置在审
申请号: | 202210023915.9 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114398873A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 杜敏强;陈威龍;陈金涂 | 申请(专利权)人: | 山东东葳电子科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/33 |
代理公司: | 山东诺诚智汇知识产权代理事务所(普通合伙) 37309 | 代理人: | 佘莉芳 |
地址: | 276100 山东省临*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 处理 方法 装置 | ||
1.一种敏感词的处理方法,其特征在于,所述处理方法包括:
建立敏感词数据库;
对待发布文章进行识别,获取初始敏感词,将所述初始敏感词按顺序拆分为多个单字,将拆解的单字和与所述初始敏感词相邻的前一个字或后一个字进行组合,若组合后能够成为词语,则确定初始敏感词为目标敏感词,若组合后不能成为词语或非所述敏感词数据库中的敏感词,则将所述初始敏感词确定为非敏感词;
对待发布文章进行识别,获取所述待发布文章所包含的目标敏感词以及所述目标敏感词的出现频次;
查询所述敏感词数据库,获取所述目标敏感词的敏感等级;
根据所述目标敏感词的敏感等级和出现频次按照相应的处理策略对所述目标敏感词进行处理;
所述处理策略包括:当所述目标敏感词的敏感等级小于设定的等级阈值,则采用设定的字符对所述目标敏感词进行覆盖。
2.根据权利要求1所述的处理方法,其特征在于,所述处理策略包括:当所述目标敏感词的敏感等级不小于设定的等级阈值,则结合上下文判断携带该目标敏感词的上下文是否具有正面意义,若具有正面意义,则不进行处理,若不具有正面意义,则采用设定的字符对所述敏感词进行覆盖。
3.根据权利要求1所述的处理方法,其特征在于,所述处理策略包括:当所述目标敏感词的敏感等级不小于设定的等级阈值,且所述目标敏感词的出现频次不小于设定的频次阈值,则对所述目标敏感词进行人工审核。
4.根据权利要求1~3任一项所述的处理方法,其特征在于,所述建立敏感词数据库包括:
获取敏感词,为每个敏感词设置第一标识ID1,并为每个敏感词设置敏感等级,将所述敏感词、第一标识ID1和所述敏感等级建立映射关系,建立敏感词数据库。
5.根据权利要求4所述的处理方法,其特征在于,所述处理方法还包括:
查询所述敏感词数据库,获取所述目标敏感词的第一标识ID1;
并基于所述目标敏感词的出现顺序和所述待发布文章的源位置生成第二标识ID2,获取所述目标敏感词的出现频次;
设置所述目标敏感词对应的替换字符;
将所述目标敏感词、所述第一标识ID1、所述敏感等级、所述出现频次、所述第二标识ID2和替换字符建立处理表,并输出所述处理表。
6.根据权利要求5所述的处理方法,其特征在于,所述处理方法还包括:
当所述目标敏感词的敏感等级大于设定的等级阈值时,根据所述第二标识ID2判断所述目标敏感词的出现顺序是否符合设定的要求,若不符合,则调整所述目标敏感词的出现顺序。
7.根据权利要求5所述的处理方法,其特征在于,所述处理方法包括:
在需要进行人工审核时,根据所述第二标识ID2进行溯源确定需要人工审核的文章。
8.根据权利要求5所述的处理方法,其特征在于,所述处理方法包括:
根据所述出现频次确定所述待发布文章的主体思想,如果所述待发布文章的主体思想涉及到敏感话题,则对所述待发布文章进行标注,以提示需要进行人工审核。
9.一种处理装置,其特征在于,所述处理装置包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~9任一项所述的处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东东葳电子科技有限公司,未经山东东葳电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210023915.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种野蜂诱捕装置及其诱捕方法
- 下一篇:便携式宽窄带融合卫星通信终端和方法