[发明专利]一种风险文本识别方法和装置有效

申请号：	201810713229.8	申请日：	2018-06-29
公开（公告）号：	CN109033224B	公开（公告）日：	2022-02-01
发明（设计）人：	周书恒;祝慧佳;赵智源	申请（专利权）人：	创新先进技术有限公司
主分类号：	G06F16/2455	分类号：	G06F16/2455;G06F16/958;G06F40/284
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	林祥
地址：	开曼群岛大开曼岛***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种风险文本识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种风险文本识别方法和装置，先根据预设的风险算法计算文本中的表情符号特征，根据所述表情符号特征生成包含风险表情的风险识别规则；再获取待识别文本，将所述风险识别规则在待识别文本中进行匹配，若匹配成功，则将所述待识别文本判定为包含风险的文本。从而弥补常规关键词识别规则在表情符号方面的缺失。

技术领域

本说明书涉及互联网领域，尤其涉及一种风险文本识别方法和装置。

背景技术

随着移动互联网的兴起，电商、社区平台、短视频、直播等产品蓬勃发展，庞大的用户群体贡献了大量优质的原创内容。与此同时，灰黑产团队伺机而动，制造了海量垃圾广告、露骨评论、诈骗信息等垃圾内容，互联网产品和广大用户深受其害。

现有技术反垃圾文本的方式通常是生成基于文字的关键词规则：根据黑文本中频繁出现的某种文字模式，经过人工总结或者机器自动挖掘出风险识别规则，比如将“花呗”“套现”同时出现视为一种风险识别规则，进而利用风险识别规则对文本进行识别。

但是表情符号的广泛使用使得垃圾文本又有了新的升级方向，大量违规违禁用户为了规避传统反垃圾模型，在正常文字中夹杂使用表情符号。而传统的关键词识别规则并未考虑这些特殊字符，如果有意识地对风险文本进行改造，替换掉常规风险文字就可以降低被传统基于关键词的反垃圾模型识别的概率。目前还没有一种较好的方法，应对这种包含表情符号的风险文本。

发明内容

针对上述技术问题，本说明书实施例提供一种风险文本识别方法和装置，技术方案如下：

根据本说明书实施例的第一方面，提供一种风险文本识别方法，该方法包括：

根据预设的风险算法计算文本中的表情符号特征，根据所述表情符号特征生成包含风险表情的风险识别规则；

获取待识别文本，将所述风险识别规则在待识别文本中进行匹配，若匹配成功，则将所述待识别文本判定为包含风险的文本。

根据本说明书实施例的第二方面，提供一种风险文本识别装置，该装置包括：

规则生成模块：用于根据预设的风险算法计算文本中的表情符号特征，根据所述表情符号特征生成包含风险表情的风险识别规则；

文本识别模块；用于获取待识别文本，将所述风险识别规则在待识别文本中进行匹配，若匹配成功，则将所述待识别文本判定为包含风险的文本。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现一种风险文本识别方法，该方法包括：

根据预设的风险算法计算文本中的表情符号特征，根据所述表情符号特征生成包含风险表情的风险识别规则；

获取待识别文本，将所述风险识别规则在待识别文本中进行匹配，若匹配成功，则将所述待识别文本判定为包含风险的文本。

本说明书实施例所提供的技术方案，利用同一表情符号在黑白文本中出现频率不同这一特性，抽取出在黑白文本中出现频率差别较大的表情符号，进而组合成包含表情符号的风险识别规则，从而弥补常规关键词识别规则在表情符号方面的缺失。