[发明专利]变体作弊字段的识别方法、装置及设备有效
申请号: | 201810907161.7 | 申请日: | 2018-08-10 |
公开(公告)号: | CN109241523B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 陈玉焓 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/9535 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变体 作弊 字段 识别 方法 装置 设备 | ||
本发明公开了一种变体作弊字段的识别方法、装置及设备,其中,方法包括:获取待识别文本;从待识别文本中提取数字号码段落;对数字号码段落中的文字进行变体字转化并进行引导词匹配;如果匹配到引导词,则判断数字号码段落为变体作弊字段;如果未匹配到引导词,则从数字号码段落中提取变体特征,并根据变体特征进行打分以生成评分值;如果评分值大于预设阈值,则判断数字号码段落为变体作弊字段。由此,解决了不能识别非连续数字片段、没有引导词无法匹配识别变体作弊字段的问题,提高了变体作弊字段识别的准确率。
技术领域
本发明涉及互联网技术领域,尤其涉及一种变体作弊字段的识别方法、装置及设备。
背景技术
随着互联网技术的快速发展,网络已经成为人们沟通交流、发布信息的主要方式。然而,互联网上时常会出现带有联系方式的变体作弊字段,例如“←→薇←→199←→2638←→723←→”“jia维→I0230燃逅66183”等。
相关技术中,方案一通过匹配“微信、电话、邮件”等引导词,根据匹配结果识别变体作弊字段。该方案准确率较低,比如“我在微信上认识他”“他威信很高”会被识别为变体作弊字段,并且在匹配不到引导词时,无法识别变体作弊字段。方案二通过微信号码、电话号码、url链接的正则表达式匹配文本段落,如果可以匹配到相应的数字段,则该段落被识别为变体作弊字段。该方案准确率较低,并且无法匹配非连续数字片段。
发明内容
本发明实施例旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明实施例的第一个目的在于提出一种变体作弊字段的识别方法,以解决相关技术中不能识别非连续数字片段、没有引导词无法匹配识别变体作弊字段的问题,提高了变体作弊字段识别的准确率。
本发明实施例的第二个目的在于提出一种变体作弊字段的识别装置。
本发明实施例的第三个目的在于提出一种计算机设备。
本发明实施例的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种变体作弊字段的识别方法,包括:
获取待识别文本;
从所述待识别文本中提取数字号码段落;
对数字号码段落中的文字进行变体字转化并进行引导词匹配;
如果匹配到引导词,则判断所述数字号码段落为变体作弊字段;
如果未匹配到引导词,则从所述数字号码段落中提取变体特征,并根据所述变体特征进行打分以生成评分值;
如果所述评分值大于预设阈值,则判断所述数字号码段落为变体作弊字段。
本发明实施例的变体作弊字段的识别方法,首先获取待识别文本,并从待识别文本中提取数字号码段落。进而,对数字号码段落中的文字进行变体字转化并进行引导词匹配,并在匹配到引导词时,判断数字号码段落为变体作弊字段。进一步地,在未匹配到引导词时,从数字号码段落中提取变体特征,并根据变体特征进行打分以生成评分值,进一步在评分值大于预设阈值时,判断数字号码段落为变体作弊字段。本实施例中,可以从待识别文本中提取出包括非连续数字片段的数字号码段落,解决了相关技术中不能识别非连续数字片段的问题。在没有匹配到引导词时,通过从数字号码段落中提取变体特征,并根据变体特征进行打分以生成评分值,从而在没有匹配到引导词时,也能够根据评分值识别变体作弊字段。并且,通过结合变体特征进行打分的方式,实现了规则化的变体作弊字段识别策略,提高了算法的准确率和变体作弊字段识别的准确率。
另外,根据本发明上述实施例的变体作弊字段的识别方法还可以具有如下附加技术特征:
可选地,在所述从所述待识别文本中提取数字号码段落之前,还包括:对所述待识别文本进行数字变体归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810907161.7/2.html,转载请声明来源钻瓜专利网。