[发明专利]敏感词检测方法、装置、计算机设备及存储介质在审
申请号: | 202010688343.7 | 申请日: | 2020-07-16 |
公开(公告)号: | CN111831785A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 程华东;李剑锋;汪伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/335;G06F16/903;G06F40/216 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 蒋学超 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 检测 方法 装置 计算机 设备 存储 介质 | ||
本发明实施例公开了一种敏感词检测方法、装置、计算机设备及存储介质。该方法属于人工智能领域,该方法处理得到的数据可储存到区块链中。该方法包括:获取敏感词库;构建谐音词库;构建敏感词索引器以及谐音词索引器;若接收到待测文本,通过敏感词索引器对待测文本进行过滤以得到第一敏感词集合;去除待测文本中的非中文字符以得到去冗余文本,并通过敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合;通过谐音词索引器对待测文本进行过滤以得到第三敏感词集合;通过谐音词索引器对去冗余文本进行过滤以得到第四敏感词集合,从而不仅能够识别待测文本中的敏感词本身,还能识别敏感词的变形词,极大地提高了识别的准确性。
技术领域
本发明涉及敏感词过滤技术领域,尤其涉及一种敏感词检测方法、装置、计算机设备及存储介质。
背景技术
敏感词过滤是指基于先进的人工智能技术,精准高效识别各类场景涉政、色情、辱骂、违禁、垃圾广告等违规内容,提前防御内容风险,提升用户体验。目前,常用的敏感词过滤算法有基于敏感词库的有限自动机匹配算法、基于机器学习模型的分类和序列标注算法。
以上现有敏感词过滤方法的缺点是:只能识别敏感词本身,对于敏感词的变形词,如谐音词以及冗余插入词不能够过滤出来,从而导致对敏感词识别的准确性较低。
发明内容
本发明实施例提供了一种敏感词检测方法、装置、计算机设备及存储介质,旨在解决现有敏感词过滤方法对敏感词识别的准确性低的问题。
第一方面,本发明实施例提供了一种敏感词检测方法,其包括:
从预设的敏感词服务器中获取敏感词库;
构建所述敏感词库对应的谐音词库;
分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器;
若接收到待测文本,通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合;
去除所述待测文本中的非中文字符以得到去冗余文本,并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合;
通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合;
通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合;
将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
第二方面,本发明实施例还提供了一种敏感词检测装置,其包括:
第一获取单元,用于从预设的敏感词服务器中获取敏感词库;
第一构建单元,用于构建所述敏感词库对应的谐音词库;
第二构建单元,用于分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器;
第一过滤单元,用于若接收到待测文本,通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合;
第二过滤单元,用于去除所述待测文本中的非中文字符以得到去冗余文本,并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合;
第三过滤单元,用于通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合;
第四过滤单元,用于通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合;
合并单元,用于将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010688343.7/2.html,转载请声明来源钻瓜专利网。