[发明专利]敏感文本识别方法、装置、介质和计算机设备在审
申请号: | 201910656205.8 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110472234A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 陈爽;曾燕玲 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 11330 北京市立方律师事务所 | 代理人: | 刘延喜<国际申请>=<国际公布>=<进入 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生僻字 替换 敏感 文本识别 计算机存储介质 计算机设备 用户发布 转换表 预设 辨别 查询 个性 发布 | ||
1.一种敏感文本识别方法,其特征在于,包括:
判断待识别文本中是否包含生僻字;
若包含生僻字,则查询预设生僻字转换表确定所述生僻字对应的常用字;
将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;
对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;
根据所述识别处理结果判断所述待识别文本是否为敏感文本。
2.如权利要求1所述的敏感文本识别方法,其特征在于,
所述判断待识别文本中是否包含生僻字,包括;
检测待识别文本中是否包含敏感词汇;
若包含敏感词汇,则确定所述待识别文本为敏感文本;
若不包含敏感词汇,则判断待识别文本中是否包含生僻字。
3.如权利要求1所述的敏感文本识别方法,其特征在于,
所述判断待识别文本中是否包含生僻字,包括:
获取待识别文本,确定所述待识别文本的词性序列信息及其对应的出现概率;
若所述出现概率低于预设阈值,则判断所述待识别文本中是否包含生僻字。
4.如权利要求1所述的敏感文本识别方法,其特征在于,
所述对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果,包括:
查询预设词性数据库确定所述替换文本对应的词性序列信息;
使用训练好的词性序列处理模型对所述词性序列信息进行处理,得到所述词性序列信息对应的出现概率;
将所述出现概率作为所述替换文本的识别处理结果。
5.如权利要求4所述的敏感文本识别方法,其特征在于,
所述查询预设词性数据库确定所述替换文本对应的词性序列信息,包括:
对所述替换文本进行分词处理,得到若干个词汇;
查询预设词性数据库确定所述若干个词汇各自对应的词性信息;
按照所述若干个词汇在所述替换文本中的位置信息,对所述若干个词汇各自对应的词性信息进行排列,得到所述替换文本对应的词性序列信息。
6.如权利要求4所述的敏感文本识别方法,其特征在于,
所述根据所述识别处理结果判断所述待识别文本是否为敏感文本,包括:
若所述出现概率不低于预设概率阈值,则确定所述待识别文本不是敏感文本;
若所述出现概率低于预设概率阈值,则确定所述待识别文本是敏感文本。
7.如权利要求1所述的敏感文本识别方法,其特征在于,
所述查询预设生僻字转换表确定所述生僻字对应的常用字,包括:
确定所述待识别文本对应的业务场景标识;
查询与所述业务场景标识对应的预设生僻字转换表,确定所述生僻字对应的常用字。
8.一种敏感文本识别装置,其特征在于,包括:
生僻字判断模块,用于判断待识别文本中是否包含生僻字;
常用字查询模块,用于当待识别文本中包含生僻字时,查询预设生僻字转换表确定所述生僻字对应的常用字;
替换文本生成模块,用于将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;
识别处理模块,用于对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;
敏感文本判断模块,用于根据所述识别处理结果判断所述待识别文本是否为敏感文本。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的敏感文本识别方法。
10.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的敏感文本识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910656205.8/1.html,转载请声明来源钻瓜专利网。