[发明专利]文本风险检测方法及其装置在审
申请号: | 202211417654.5 | 申请日: | 2022-11-10 |
公开(公告)号: | CN115688802A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 林泽南;赵岷;傅瑜;张国鑫;秦华鹏;蒋烨 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N20/00;G06F40/289 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 风险 检测 方法 及其 装置 | ||
1.一种文本风险检测方法,包括:
获取待检测文本;
基于语义解析和可挖掘扩充的词表,生成所述待检测文本的第一符号表示,其中,所述第一符号表示包括所述待检测文本之中各个关键词的语义标签信息;
基于所述第一符号表示和预先构建的模式集合,检测所述待检测文本是否为风险文本,其中,所述模式集合中包括风险文本样本的第二符号表示。
2.根据权利要求1所述的方法,其中,所述基于语义解析和可挖掘扩充的词表,生成所述待检测文本的第一符号表示,包括:
基于预设的语义解析工具对所述待检测文本进行语义解析,获得所述待检测文本的标签序列;
基于可挖掘扩充的词表对所述标签序列进行封装处理,以生成所述待检测文本的第一符号表示。
3.根据权利要求2所述的方法,其中,所述基于可挖掘扩充的词表对所述标签序列进行封装处理,以生成所述待检测文本的第一符号表示,包括:
将所述标签序列中每个标签所对应的词与所述词表中的参考词进行匹配;
将在所述词表中匹配到参考词的所述词,确定为关键词;
从所述词表中获取所述匹配到的参考词的参考标签;
根据所述匹配到的参考词的参考标签,对所述标签序列之中所述关键词的标签进行调整,以得到所述关键词的语义标签信息;
基于所述关键词的语义标签信息,生成所述待检测文本的第一符号表示。
4.根据权利要求3所述的方法,其中,所述第一符号表示为符号序列表示;所述基于所述关键词的语义标签信息,生成所述待检测文本的第一符号表示,包括:
基于所述关键词的标签在所述标签序列中的位置信息,将所述关键词的语义标签信息进行排列,以得到所述待检测文本的符号序列表示。
5.根据权利要求3所述的方法,其中,所述第一符号表示为符号集合表示;所述基于所述关键词的语义标签信息,生成所述待检测文本的第一符号表示,包括:
将所述关键词的语义标签信息按照字母顺序进行排序,以得到所述待检测文本的符号集合表示。
6.根据权利要求1所述的方法,其中,所述基于所述第一符号表示和预先构建的模式集合,检测所述待检测文本是否为风险文本,包括:
将所述第一符号表示与所述模式集合之中第二符号表示进行匹配;
响应于所述第一符号表示在所述模式集合之中未匹配到对应的第二符号表示,确定所述待检测文本不为风险文本;
或者,
响应于所述第一符号表示在所述模式集合之中匹配到对应的第二符号表示,确定所述待检测文本为风险文本。
7.根据权利要求6所述的方法,其中,所述模式集合中还包括所述风险文本样本所属的风险类别;在所述待检测文本为风险文本时,所述方法还包括:
在所述模式集合中,获取与所述匹配到的第二符号表示对应的目标风险文本样本所属的风险类别;
基于所述目标风险文本样本所属的风险类别,确定所述待检测文本的风险类别。
8.根据权利要求6所述的方法,其中,所述模式集合中还包括所述风险文本样本的风险等级;在所述待检测文本为风险文本时,所述方法还包括:
在所述模式集合中,获取与所述匹配到的第二符号表示对应的目标风险文本样本的风险等级;
基于所述目标风险文本样本的风险等级,确定所述待检测文本的风险等级。
9.根据权利要求1所述的方法,其中,所述模式集合通过以下方式预先构建的:
基于风险文本审核政策信息,获取满足所述风险文本审核政策信息的风险文本样本;
基于语义解析和可挖掘扩充的词表,生成所述风险文本样本的第二符号表示;
基于所述风险文本样本的第二符号表示,构建所述模式集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211417654.5/1.html,转载请声明来源钻瓜专利网。