[发明专利]文本审核方法、装置、电子设备和计算机可读介质在审
申请号: | 202011488668.7 | 申请日: | 2020-12-16 |
公开(公告)号: | CN113723095A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 徐路 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06Q30/06;G06N3/04;G06N3/08 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 101116 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 审核 方法 装置 电子设备 计算机 可读 介质 | ||
1.一种文本审核方法,包括:
基于物品名称表,对预处理待审核文本进行词粒度分词处理,以生成待审核词集合;
根据敏感词表,对所述待审核词集合进行敏感词匹配处理;
响应于确定所述待审核词集合中不存在与所述敏感词表中的敏感词相匹配的待审核词,将第一字段集合输入至预先训练的文本审核模型,以生成文本审核结果,其中,所述第一字段集合是根据所述预处理待审核文本生成的。
2.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定所述待审核词集合中存在与所述敏感词表中的敏感词相匹配的待审核词,生成所述文本审核结果。
3.根据权利要求1所述的方法,其中,所述第一字段集合是通过以下步骤生成的:
对所述待审核文本进行字粒度分词处理,以生成第二字段集合;
对所述第二字段集合中的第二字段进行停用字段去除处理,以生成第三字段集合;
对所述第三字段集合中的第三字段进行字段替换处理,以生成所述第一字段集合。
4.根据权利要求1所述的方法,其中,在所述基于物品名称表,对预处理待审核文本进行词粒度分词处理,以生成待审核词集合之前,所述方法还包括:
对待审核文本进行文本转换处理,以生成所述预处理待审核文本。
5.根据权利要求1所述的方法,其中,所述对所述待审核词集合进行敏感词匹配处理,包括:
利用预设的匹配算法,对所述待审核词集合进行敏感词匹配处理。
6.根据权利要求1所述的方法,其中,所述文本审核模型包括:特征信息提取网络、卷积网络和全连接层,所述卷积网络至少包括:第一子卷积层,第二子卷积层和第三子卷积层。
7.根据权利要求6所述的方法,其中,所述将第一字段集合输入至预先训练的文本审核模型,以生成文本审核结果,包括:
将所述第一字段集合输入至所述特征信息提取网络,以生成整体特征序列和所述整体特征序列中目标位置的子特征序列;
将所述整体特征序列分别输入至所述第一子卷积层、所述第二子卷积层和所述第三子卷积层以生成第一特征序列、第二特征序列和第三特征序列;
分别对所述第一特征序列、所述第二特征序列和所述第三特征序列进行第一池化处理,以生成第一池化特征序列集合;
分别对所述第一特征序列、所述第二特征序列和所述第三特征序列进行第二池化处理,以生成第二池化特征序列集合;
将所述第一池化特征序列集合中的每个第一池化特征序列与对应的第二池化特征序列进行特征拼接,以生成子拼接特征序列,得到子拼接特征序列集合;
将所述子特征序列和所述子拼接特征序列集合中的各个子拼接特征序列进行特征拼接,以生成拼接特征序列;
将所述拼接特征序列输入至所述全连接层,以生成所述文本审核结果。
8.一种文本审核装置,包括:
词粒度分词处理单元,被配置成基于物品名称表,对预处理待审核文本进行词粒度分词处理,以生成待审核词集合;
敏感词匹配处理单元,被配置成根据敏感词表,对所述待审核词集合进行敏感词匹配处理;
文本审核结果生成单元,被配置成响应于确定所述待审核词集合中不存在与所述敏感词表中的敏感词相匹配的待审核词,将第一字段集合输入至预先训练的文本审核模型,以生成文本审核结果,其中,所述第一字段集合是根据所述预处理待审核文本生成的。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至7中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011488668.7/1.html,转载请声明来源钻瓜专利网。