[发明专利]文本审核方法、装置、电子设备和计算机可读介质在审
申请号: | 202011488668.7 | 申请日: | 2020-12-16 |
公开(公告)号: | CN113723095A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 徐路 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06Q30/06;G06N3/04;G06N3/08 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 101116 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 审核 方法 装置 电子设备 计算机 可读 介质 | ||
本公开的实施例公开了文本审核方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:基于物品名称表,对预处理待审核文本进行词粒度分词处理,以生成待审核词集合;根据敏感词表,对该待审核词集合进行敏感词匹配处理;响应于确定该待审核词集合中不存在与该敏感词表中的敏感词相匹配的待审核词,将第一字段集合输入至预先训练的文本审核模型,以生成文本审核结果,其中,该第一字段集合是根据该预处理待审核文本生成的。该实施方式降低了文本审核的时间成本,提高了文本审核的准确度。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及文本审核方法、装置、电子设备和计算机可读介质。
背景技术
随着互联网技术的发展,越来越多的人通过互联网进行社交或在线购物。人们在通过互联网进行社交或在线购物时,会产生大量的文本内容(例如,购物评论等)。然而,产生的文本内容中往往包含许多不当言论。现有技术,往往是通过人工审核的方式,以实现对包含不当言论的文本内容的过滤。
然而,当采用上述方式进行文本审核时,经常会存在如下技术问题:
采用人工审核的方式,耗费较多的人力进行文本审核,审核效率较低,会消耗大量的时间成本,同时,由于在人工审核的过程中,审核人员存在一定的主观性,可能会导致审核结果不够准确。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了文本审核方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种文本审核方法,该方法包括:基于物品名称表,对预处理待审核文本进行词粒度分词处理,以生成待审核词集合;根据敏感词表,对上述待审核词集合进行敏感词匹配处理;响应于确定上述待审核词集合中不存在与上述敏感词表中的敏感词相匹配的待审核词,将第一字段集合输入至预先训练的文本审核模型,以生成文本审核结果,其中,上述第一字段集合是根据上述预处理待审核文本生成的。
可选地,方法还包括:响应于确定上述待审核词集合中存在与上述敏感词表中的敏感词相匹配的待审核词,生成上述文本审核结果。
可选地,方法还包括:对待审核文本进行文本转换处理,以生成预处理待审核文本。
可选地,上述第一字段集合是通过以下步骤生成的:对上述待审核文本进行字粒度分词处理,以生成第二字段集合;对上述第二字段集合中的第二字段进行停用字段去除处理,以生成第三字段集合;对上述第三字段集合中的第三字段进行字段替换处理,以生成上述第一字段集合。
可选地,对上述待审核词集合进行敏感词匹配处理,包括:利用预设的匹配算法,对上述待审核词集合进行敏感词匹配处理。
可选地,文本审核模型包括:特征信息提取网络、卷积网络和全连接层,上述卷积网络至少包括:第一子卷积层,第二子卷积层和第三子卷积层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011488668.7/2.html,转载请声明来源钻瓜专利网。