[发明专利]文本风险检测方法及其装置在审
申请号: | 202211417654.5 | 申请日: | 2022-11-10 |
公开(公告)号: | CN115688802A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 林泽南;赵岷;傅瑜;张国鑫;秦华鹏;蒋烨 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N20/00;G06F40/289 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 风险 检测 方法 及其 装置 | ||
本公开提供了一种文本风险检测方法及其装置,涉及人工智能领域,具体涉及自然语言处理、知识图谱技术,可应用在智慧城市、智慧政务和舆情分析、商业文案风控场景下。具体实现方案为:获取待检测文本;基于语义解析和可挖掘扩充的词表,生成待检测文本的第一符号表示,其中,第一符号表示包括待检测文本之中各个关键词的语义标签信息;基于第一符号表示和预先构建的模式集合,检测待检测文本是否为风险文本,其中,模式集合中包括风险文本样本的第二符号表示。可以解决相关技术中通过机器学习模型实现文本风险判定所存在的问题。
技术领域
本公开涉及人工智能领域,具体涉及自然语言处理、知识图谱技术,尤其涉及一种文本风险检测方法及其装置,可应用在智慧城市、智慧政务和舆情分析、商业文案风控场景下。
背景技术
相关技术中,针对文本风险检测,通常采用机器学习模型实现。然而,由于风险文本审核政策信息变化比较频繁,使用机器学习模型实现文本风险检测往往存在以下问题:模型训练样本难以更新;无法及时提供干预;文本风险检测所使用的模型通常为黑盒模型,只有分类结构,并没有可解释性。
发明内容
本公开提供了一种文本风险检测方法、装置、电子设备以及存储介质。
根据本公开的第一方面,提供了一种文本风险检测方法,包括:
获取待检测文本;
基于语义解析和可挖掘扩充的词表,生成所述待检测文本的第一符号表示,其中,所述第一符号表示包括所述待检测文本之中各个关键词的语义标签信息;
基于所述第一符号表示和预先构建的模式集合,检测所述待检测文本是否为风险文本,其中,所述模式集合中包括风险文本样本的第二符号表示。
根据本公开的第二方面,提供了一种文本风险检测装置,包括:
第一获取模块,用于获取待检测文本;
生成模块,用于基于语义解析和可挖掘扩充的词表,生成所述待检测文本的第一符号表示,其中,所述第一符号表示包括所述待检测文本之中各个关键词的语义标签信息;
检测模块,用于基于所述第一符号表示和预先构建的模式集合,检测所述待检测文本是否为风险文本,其中,所述模式集合中包括风险文本样本的第二符号表示。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述第一方面所述方法的步骤。
根据本公开的技术方案,可以解决相关技术中通过机器学习模型实现文本风险判定所存在的问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种文本风险检测方法的流程图;
图2为本公开实施例提供的另一种文本风险检测方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211417654.5/2.html,转载请声明来源钻瓜专利网。