[发明专利]敏感词检测方法、装置、计算机设备和存储介质有效
申请号: | 202111580590.6 | 申请日: | 2021-12-22 |
公开(公告)号: | CN113961768B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 姚望;宁义双;宁可 | 申请(专利权)人: | 金蝶软件(中国)有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901;G06F16/33;G06F16/31 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 赖远龙 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 检测 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种敏感词检测方法、装置、计算机设备和存储介质。方法包括:获取待检测文本和敏感词字典树;敏感词字典树包括有敏感无声调字符;确定与待检测文本相对应的无声调文本,并将无声调文本与敏感无声调字符进行第一匹配处理,得到第一匹配结果;根据第一匹配结果提取无声调文本中的候选字符串、和敏感词字典树中的匹配敏感字符串;确定候选字符串所对应的候选有声调字符串,并确定匹配敏感字符串所对应的匹配有声调字符串;将候选有声调字符串与匹配有声调字符串进行第二匹配处理,得到第二匹配结果,并根据第二匹配结果确定待检测文本中的敏感词。因此本申请大大提升了待检测文本的敏感词查找效率。
技术领域
本申请涉及智能检测技术领域,特别是涉及一种敏感词检测方法、装置、计算机设备和存储介质。
背景技术
随着智能检测技术的发展,越来越多用户通过计算机自动识别文本中的信息。而识别后的文本信息通常需要再进行检测,以避免文本信息中出现违规或者带有负面影响的敏感词,比如,在企业的财务事项中,需要到对扫描后的电子报销单据进行敏感词检测。
目前,主要通过人工方式对待检测的文本信息进行检测,并从文本信息中提取出敏感词,然而在实际情况中,待检测的文本信息中会存在干扰字符、同音字等。因此,通过人工方式在海量文本中逐一审核待检测文本中的敏感词,会导致待检测文本的敏感词查找效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高待检测文本的敏感词查找效率的敏感词检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种敏感词检测方法。所述方法包括:
获取待检测文本和敏感词字典树;所述敏感词字典树包括有敏感无声调字符;所述敏感无声调字符为与预设敏感词相对应的敏感无声调字符串中的字符;
确定与所述待检测文本相对应的无声调文本,并将所述无声调文本与所述敏感无声调字符进行第一匹配处理,得到第一匹配结果;
根据第一匹配结果提取所述无声调文本中的候选字符串、和所述敏感词字典树中的匹配敏感字符串;
确定所述候选字符串所对应的候选有声调字符串,并确定所述匹配敏感字符串所对应的匹配有声调字符串;
将所述候选有声调字符串与所述匹配有声调字符串进行第二匹配处理,得到第二匹配结果,并根据所述第二匹配结果确定所述待检测文本中的敏感词。
在其中一个实施例中,所述确定与所述待检测文本相对应的无声调文本,包括:对所述待检测文本进行分词检测,得到所述待检测文本中的至少一个待检测分词,并确定各所述待检测分词在所述待检测文本中的位置信息;对于多个待检测分词中的每个待检测分词,均根据当前待检测分词的分词类型,对所述待检测分词进行转换,得到与所述当前待检测分词对应的字符串;根据各所述待检测分词在所述待检测文本中的位置信息,综合各所述待检测分词各自对应的字符串,得到无声调文本。
在其中一个实施例中,所述将所述无声调文本与所述敏感无声调字符进行第一匹配处理,得到第一匹配结果,包括:将所述无声调文本中的每个文本字符均与所述敏感词字典树中的相应节点进行匹配,得到每个所述文本字符各自对应的匹配子结果;综合每个所述文本字符各自对应的匹配子结果,得到第一匹配结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金蝶软件(中国)有限公司,未经金蝶软件(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111580590.6/2.html,转载请声明来源钻瓜专利网。