[发明专利]文本判别的方法、装置、电子设备及存储介质有效
申请号: | 202110479518.8 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113128220B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 洪煜中 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F18/2415;G06N3/04;G06N3/084 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 唐会娜;杜欣 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 别的 方法 装置 电子设备 存储 介质 | ||
本申请涉及一种文本判别的方法、装置、电子设备及存储介质。应用于数据处理技术领域,其中文本判别方法包括:获取待识别文本,待识别文本中包括至少一个字符;确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字符;根据目标字符的敏感度和至少一个与目标字符相邻的邻域字符的敏感度,确定目标字符的召回倾向度,召回倾向度指示目标字符所在的待识别文本被召回的倾向程度;在目标字符的召回倾向度大于预设值时,确定待识别文本需要召回。本申请用以解决相关技术中,对敏感内容识别准确率低、召回结果不理想的问题。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本判别的方法、装置、电子设备及存储介质。
背景技术
随着社交网络、移动互联网的不断普及,人们在互联网上分享自己的生活所见、所闻及所想的现象越来越普遍。主要包括人们在互联网上发布自己的视频、评论等,而视频的标题以及评论的内容中,往往会存在一些低俗、违法、暴力倾向、政治敏感等不合规的信息,因此需要将此类内容进行识别并召回,以净化网络。
现有技术中,往往采用简单的敏感词匹配来确定文本中是否存在敏感词,即,将文本中的词汇与敏感词汇进行匹配,若匹配成功,则表示存在敏感词。在文本中存在敏感词时,便对文本进行召回。但是这种方法由于敏感词的歧义或者文本的分词错误将会导致精确性较低,但是,简单的敏感词匹配法会将其认为是同一概念,这种情况下,便会导致误判,准确性较低,使得召回结果不理想。
发明内容
本申请提供了一种文本判别的方法、装置、电子设备及存储介质,用以解决相关技术中,对敏感内容识别准确率低、召回结果不理想的问题。
第一方面,本申请提供了一种文本判别方法,包括:
获取待识别文本,所述待识别文本中包括至少一个字符;
确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;
根据所述目标字符的敏感度和至少一个与所述目标字符相邻的邻域字符的敏感度,确定所述目标字符的召回倾向度,所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度;
在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回。
可选的,所述确定所述待识别文本中目标字符的敏感度,包括:
获取预设的敏感词集;
根据预设敏感词集对所述待识别文本进行全称匹配,得到匹配结果;
根据所述匹配结果,对所述目标字符进行赋值,将赋值结果作为所述目标字符的敏感度,其中,匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度。
可选的,所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度,确定所述目标字符的召回倾向度,包括:
根据每个所述目标字符的所述赋值结果,确定所述待识别文本的匹配序列;
对所述匹配序列进行平滑处理,得到平滑序列;
根据所述平滑序列,确定所述目标字符的召回倾向度。
可选的,还包括:
获取训练样本集,所述训练样本集中包括至少一个训练文本、各所述训练文本中各训练字符的真实召回倾向度以及所述训练文本的真实判别结果,所述真实召回倾向度和所述真实判别结果是所述训练文本通过执行所述判别过程得到;
根据所述训练样本集对初始神经网络进行训练,得到判别神经网络;
基于所述判别神经网络确定所述待识别文本是否需要召回。
可选的,所述根据所述训练样本集对初始神经网络进行训练,得到判别神经网络,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110479518.8/2.html,转载请声明来源钻瓜专利网。