[发明专利]文本判别的方法、装置、电子设备及存储介质有效

申请号：	202110479518.8	申请日：	2021-04-30
公开（公告）号：	CN113128220B	公开（公告）日：	2023-07-18
发明（设计）人：	洪煜中	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F18/2415;G06N3/04;G06N3/084
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	唐会娜;杜欣
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本别的方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种文本判别的方法、装置、电子设备及存储介质。应用于数据处理技术领域，其中文本判别方法包括：获取待识别文本，待识别文本中包括至少一个字符；确定待识别文本中目标字符的敏感度，目标字符为待识别文本中的任一字符；根据目标字符的敏感度和至少一个与目标字符相邻的邻域字符的敏感度，确定目标字符的召回倾向度，召回倾向度指示目标字符所在的待识别文本被召回的倾向程度；在目标字符的召回倾向度大于预设值时，确定待识别文本需要召回。本申请用以解决相关技术中，对敏感内容识别准确率低、召回结果不理想的问题。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文本判别的方法、装置、电子设备及存储介质。

背景技术

随着社交网络、移动互联网的不断普及，人们在互联网上分享自己的生活所见、所闻及所想的现象越来越普遍。主要包括人们在互联网上发布自己的视频、评论等，而视频的标题以及评论的内容中，往往会存在一些低俗、违法、暴力倾向、政治敏感等不合规的信息，因此需要将此类内容进行识别并召回，以净化网络。

现有技术中，往往采用简单的敏感词匹配来确定文本中是否存在敏感词，即，将文本中的词汇与敏感词汇进行匹配，若匹配成功，则表示存在敏感词。在文本中存在敏感词时，便对文本进行召回。但是这种方法由于敏感词的歧义或者文本的分词错误将会导致精确性较低，但是，简单的敏感词匹配法会将其认为是同一概念，这种情况下，便会导致误判，准确性较低，使得召回结果不理想。

发明内容

本申请提供了一种文本判别的方法、装置、电子设备及存储介质，用以解决相关技术中，对敏感内容识别准确率低、召回结果不理想的问题。

第一方面，本申请提供了一种文本判别方法，包括：

获取待识别文本，所述待识别文本中包括至少一个字符；

确定所述待识别文本中目标字符的敏感度，所述目标字符为所述待识别文本中的任一字符；

根据所述目标字符的敏感度和至少一个与所述目标字符相邻的邻域字符的敏感度，确定所述目标字符的召回倾向度，所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度；

在所述目标字符的所述召回倾向度大于预设值时，确定所述待识别文本需要召回。

可选的，所述确定所述待识别文本中目标字符的敏感度，包括：

获取预设的敏感词集；

根据预设敏感词集对所述待识别文本进行全称匹配，得到匹配结果；

根据所述匹配结果，对所述目标字符进行赋值，将赋值结果作为所述目标字符的敏感度，其中，匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度。

可选的，所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度，确定所述目标字符的召回倾向度，包括：