[发明专利]一种文本检测方法、装置及设备在审
申请号: | 202110455055.1 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113177408A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 农斌;王强;潘盛鹏 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检测 方法 装置 设备 | ||
1.一种文本检测方法,其特征在于,所述方法包括:
获取敏感判定项,每条所述敏感判定项包括至少一个敏感词元,每条所述敏感判定项对应有敏感等级;
检测得到目标文本包括的敏感词元;
在确定所述目标文本包括的敏感词元能够构成的敏感判定项时,将构成的敏感判定项确定为所述目标文本包括的敏感判定项;
确定所述目标文本包括的敏感判定项的误判定系数;
计算所述目标文本包括的敏感判定项的距离衰减系数;
根据所述目标文本包括的各个敏感判定项的误判定系数、距离衰减系数以及敏感等级,计算得到所述目标文本的敏感分值;
如果所述目标文本的敏感分值大于预设阈值,判定所述目标文本为敏感文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将各个所述敏感词元添加到自动机中;所述自动机的一条路径包括至少一个汉字节点;所述自动机的一条路径包括的汉字节点按顺序对应于一个所述敏感词元包括的各个汉字;所述自动机的每条路径对应的敏感词元不同;
所述检测得到目标文本包括的敏感词元,包括:
将目标文本输入所述自动机,如果在所述自动机的各条路径中能够得到与所述目标文本包括的连续汉字匹配的第一路径,将所述第一路径对应的敏感词元确定为所述目标文本包括的敏感词元。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将各个所述敏感词元中的每个汉字的汉字拼音串添加到拼音前缀树中;所述拼音前缀树的一条路径包括至少一个字符节点;所述拼音前缀树的一条路径包括的字符节点按顺序对应于一个所述汉字拼音串包括的各个拼音字符;所述拼音前缀树的每条路径对应的汉字拼音串对应于一个或多个同音汉字;
为所述拼音前缀树的每条路径对应的汉字分别分配汉字序号;
将所述汉字序号添加到所述自动机中相应汉字的汉字节点中;
所述检测得到目标文本包括的敏感词元,包括:
识别目标文本中的非汉字字符串;
将所述非汉字字符串输入所述拼音前缀树,如果在所述拼音前缀树的各条路径中能够得到与所述非汉字字符串包括的连续字符匹配的第二路径,将所述第二路径对应的汉字序号作为所述目标文本对应的汉字序号;
将所述目标文本对应的汉字序号输入所述自动机中,如果在所述自动机的各条路径中能够得到与所述目标文本对应的汉字序号匹配的第三路径,将所述第三路径对应的敏感词元确定为所述目标文本包括的敏感词元。
4.根据权利要求1所述的方法,其特征在于,在检测得到目标文本包括的敏感词元之后,所述方法还包括:
获取所述目标文本包括的敏感词元中为数字词元的第一敏感词元;
当确定所述第一敏感词元属于所述目标文本中的号码信息时,丢弃所述第一敏感词元;
或,
获取所述目标文本包括的敏感词元中为单字词元的第二敏感词元;
在所述目标文本中获取包括所述第二敏感词元的分词;
当确定所述包括所述第二敏感词元的分词为高频误判定词时,将所述第二敏感词元丢弃。
5.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本包括的敏感判定项的误判定系数,包括:
对所述目标文本进行分词,得到分词序列;
根据目标敏感判定项的第j个敏感词元与所述分词序列中分词的边缘字符的重合情况,得到所述目标敏感判定项的第j个敏感词元的误判定系数;所述目标敏感判定项为所述目标文本包括的敏感判定项中的任一条;j的取值为1至m的整数,m为所述目标敏感判定项包括的敏感词元个数;
计算所述目标敏感判定项的各个敏感词元的误判定系数的平均值,得到所述目标敏感判定项的误判定系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110455055.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种古建筑测绘用辅助工具
- 下一篇:一种基于气动肌肉的上肢搬运助力装置