[发明专利]敏感词句识别模型处理方法、及其相关设备在审
申请号: | 202011314105.6 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112417887A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 庞承杰 | 申请(专利权)人: | 平安普惠企业管理有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 词句 识别 模型 处理 方法 及其 相关 设备 | ||
本申请实施例属于人工智能领域,涉及一种敏感词句识别模型处理方法,包括获取初始数据源;将初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合;获取用于对初始敏感词句识别模型进行增量训练的生语料数据源;基于语义相似度,在生语料数据源中对初始敏感词句集合进行迭代扩充,得到增量数据源;通过增量数据源对初始敏感词句识别模型进行训练,得到敏感词句识别模型。本申请还提供一种敏感词句识别模型处理装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,初始数据源和生语料数据源可存储于区块链中。本申请提高了敏感词句识别的兼容性。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种敏感词句识别模型处理方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的发展,越来越多的信息通过互联网进行发布和传输。互联网上传输的信息多种多样,其中不乏各种类型的敏感词句。在社会治理层面,敏感词句包括违法违规、危害社会安全稳定的不良信息;对于企业机构,敏感词句包括不可泄漏、需要保护的信息;对于个人,敏感词句除了个人隐私的相关信息,还可以包括对获取信息无关的干扰词句。由此可见,敏感词句的监测和识别具有非常广阔的应用场景。
然而,传统的敏感词句识别技术,通常是进行正则匹配,对匹配到的敏感词句进行屏蔽。基于正则建立的规则库往往逻辑复杂。为了保证时效性,需要不断添加新的正则表达式以适应各种敏感词句,往往导致规则库臃肿复杂,维护成本较高,对敏感词句的兼容性较差。
发明内容
本申请实施例的目的在于提出一种敏感词句识别模型处理方法、装置、计算机设备及存储介质,以解决敏感词句识别时兼容性较差的问题。
为了解决上述技术问题,本申请实施例提供一种敏感词句识别模型处理方法,采用了如下所述的技术方案:
获取初始数据源;
将所述初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合;
获取用于对所述初始敏感词句识别模型进行增量训练的生语料数据源;
基于语义相似度,在所述生语料数据源中对所述初始敏感词句集合进行迭代扩充,得到增量数据源;
通过所述增量数据源对所述初始敏感词句识别模型进行训练,得到敏感词句识别模型。
为了解决上述技术问题,本申请实施例还提供一种敏感词句识别模型处理装置,采用了如下所述的技术方案:
初始获取模块,用于获取初始数据源;
初始输入模块,用于将所述初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合;
增量获取模块,用于获取用于对所述初始敏感词句识别模型进行增量训练的生语料数据源;
词句扩充模块,用于基于语义相似度,在所述生语料数据源中对所述初始敏感词句集合进行迭代扩充,得到增量数据源;
初始训练模块,用于通过所述增量数据源对所述初始敏感词句识别模型进行训练,得到敏感词句识别模型。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
获取初始数据源;
将所述初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合;
获取用于对所述初始敏感词句识别模型进行增量训练的生语料数据源;
基于语义相似度,在所述生语料数据源中对所述初始敏感词句集合进行迭代扩充,得到增量数据源;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011314105.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢渣聚拢装置
- 下一篇:加工封水颈的缩颈模具及缩颈加工方法