[发明专利]敏感文本识别方法、装置、介质和计算机设备在审

申请号：	201910656205.8	申请日：	2019-07-19
公开（公告）号：	CN110472234A	公开（公告）日：	2019-11-19
发明（设计）人：	陈爽;曾燕玲	申请（专利权）人：	平安科技(深圳)有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/22
代理公司：	11330 北京市立方律师事务所	代理人：	刘延喜<国际申请>=<国际公布>=<进入
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本生僻字替换敏感文本识别计算机存储介质计算机设备用户发布转换表预设辨别查询个性发布
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种敏感文本识别方法、装置、计算机存储介质和计算机设备；该方法包括：判断待识别文本中是否包含生僻字；若包含生僻字，则查询预设生僻字转换表确定所述生僻字对应的常用字；将所述待识别文本中的生僻字替换为与其对应的常用字，生成待识别的替换文本；对所述替换文本进行敏感文本识别处理，得到所述替换文本的识别处理结果；根据所述识别处理结果判断所述待识别文本是否为敏感文本。通过本发明技术方案，能够更准确地辨别用户发布的文本是否为敏感文本，并间接地让用户能够发布体现个性的文本，提高用户的使用体验。

技术领域

本发明涉及信息处理领域，具体而言，本发明涉及一种敏感文本识别方法、装置、介质和计算机设备。

背景技术

网络上的信息随着互联网行业的发展变得越来越丰富，但网络上的一些不符合互联网使用环境甚至违反国家法律法规的内容，如政治敏感话题、不文明言论等。为了能够减少这些负面内容对自身的影响，很多网络平台通常会采用计算文本词性序列的出现概率，对出现概率进行分析的方式来对用户试图发布的内容进行识别，并将从文本中识别出的敏感信息屏蔽，以保证用户发布的内容符合互联网使用环境规范、或符合国家法律法规等的规定，这也能维护自身的品牌形象以及提高正常使用网络平台的用户的使用体验。

然而，时下很多年轻人交流时喜欢将文本中的常用字替换为一些字形相似的生僻字。如果直接对这种被替换了常用字的文本进行词性序列分析，得到的词性序列就与实际情况不符，对该词性序列进行分析有可能将该文本误检为敏感文本，这无法准确辨别用户发布的文本是否为敏感文本，另一方面也使得用户无法发布这类能够表达自己个性化的文本，造成用户体验下降。

发明内容

本发明针对现有技术的缺点，提供了一种敏感文本识别方法、装置、介质和计算机设备，通过本发明技术方案，能够更准确地辨别用户发布的文本是否为敏感文本，并间接地让用户能够发布体现个性的文本，提高用户的使用体验。

本发明实施例根据第一方面提供了一种敏感文本识别方法，包括：

判断待识别文本中是否包含生僻字；

若包含生僻字，则查询预设生僻字转换表确定所述生僻字对应的常用字；

将所述待识别文本中的生僻字替换为与其对应的常用字，生成待识别的替换文本；

对所述替换文本进行敏感文本识别处理，得到所述替换文本的识别处理结果；

根据所述识别处理结果判断所述待识别文本是否为敏感文本。

进一步地，所述判断待识别文本中是否包含生僻字，包括；

检测待识别文本中是否包含敏感词汇；

若包含敏感词汇，则确定所述待识别文本为敏感文本；

若不包含敏感词汇，则判断待识别文本中是否包含生僻字。