[发明专利]一种风险文本识别方法和装置有效
申请号: | 201810713229.8 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033224B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 周书恒;祝慧佳;赵智源 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/958;G06F40/284 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 风险 文本 识别 方法 装置 | ||
本申请提供一种风险文本识别方法和装置,先根据预设的风险算法计算文本中的表情符号特征,根据所述表情符号特征生成包含风险表情的风险识别规则;再获取待识别文本,将所述风险识别规则在待识别文本中进行匹配,若匹配成功,则将所述待识别文本判定为包含风险的文本。从而弥补常规关键词识别规则在表情符号方面的缺失。
技术领域
本说明书涉及互联网领域,尤其涉及一种风险文本识别方法和装置。
背景技术
随着移动互联网的兴起,电商、社区平台、短视频、直播等产品蓬勃发展,庞大的用户群体贡献了大量优质的原创内容。与此同时,灰黑产团队伺机而动,制造了海量垃圾广告、露骨评论、诈骗信息等垃圾内容,互联网产品和广大用户深受其害。
现有技术反垃圾文本的方式通常是生成基于文字的关键词规则:根据黑文本中频繁出现的某种文字模式,经过人工总结或者机器自动挖掘出风险识别规则,比如将“花呗”“套现”同时出现视为一种风险识别规则,进而利用风险识别规则对文本进行识别。
但是表情符号的广泛使用使得垃圾文本又有了新的升级方向,大量违规违禁用户为了规避传统反垃圾模型,在正常文字中夹杂使用表情符号。而传统的关键词识别规则并未考虑这些特殊字符,如果有意识地对风险文本进行改造,替换掉常规风险文字就可以降低被传统基于关键词的反垃圾模型识别的概率。目前还没有一种较好的方法,应对这种包含表情符号的风险文本。
发明内容
针对上述技术问题,本说明书实施例提供一种风险文本识别方法和装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种风险文本识别方法,该方法包括:
根据预设的风险算法计算文本中的表情符号特征,根据所述表情符号特征生成包含风险表情的风险识别规则;
获取待识别文本,将所述风险识别规则在待识别文本中进行匹配,若匹配成功,则将所述待识别文本判定为包含风险的文本。
根据本说明书实施例的第二方面,提供一种风险文本识别装置,该装置包括:
规则生成模块:用于根据预设的风险算法计算文本中的表情符号特征,根据所述表情符号特征生成包含风险表情的风险识别规则;
文本识别模块;用于获取待识别文本,将所述风险识别规则在待识别文本中进行匹配,若匹配成功,则将所述待识别文本判定为包含风险的文本。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种风险文本识别方法,该方法包括:
根据预设的风险算法计算文本中的表情符号特征,根据所述表情符号特征生成包含风险表情的风险识别规则;
获取待识别文本,将所述风险识别规则在待识别文本中进行匹配,若匹配成功,则将所述待识别文本判定为包含风险的文本。
本说明书实施例所提供的技术方案,利用同一表情符号在黑白文本中出现频率不同这一特性,抽取出在黑白文本中出现频率差别较大的表情符号,进而组合成包含表情符号的风险识别规则,从而弥补常规关键词识别规则在表情符号方面的缺失。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810713229.8/2.html,转载请声明来源钻瓜专利网。