[发明专利]一种对批量生成的字符串进行识别的方法、装置及设备有效
申请号: | 201811074092.2 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109359274B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 江大鹏 | 申请(专利权)人: | 蚂蚁金服(杭州)网络技术有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F16/903;G06F16/906 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 批量 生成 字符串 进行 识别 方法 装置 设备 | ||
本说明书公开了一种对批量生成的字符串进行识别的方法、装置及设备。该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。
技术领域
本说明书涉及计算机技术领域,尤其是涉及一种对批量生成的字符串进行识别的方法、装置及设备。
背景技术
随着互联网技术的发展和普及应用,越来越多的网络平台中的字符串是由机器自动批量生成的字符串。以批量注册账户为例,这些批量注册的账号可以使用平台的各种功能。由于普通用户不使用这类账号,因此给平台带来很多垃圾内容,甚至是产生资损。比如,资讯类应用的评论水军,众多账号在短时间内表达及其相似的观点,引导舆论走向,影响正常用户体验。再比如,电商类站点,有“羊毛党”等贪图小便宜的人,就利用批量注册账号获取电商类站点的补贴资源,使得营销资金浪费严重,营销效果大打折扣。
现有技术中,对这类账户进行识别的方式是通过监督学习分类算法进行识别,如LR,SVM等对账号进行分类。该算法需要先通过人工标注大量账号为普通账号或随机账号,得到训练数据训练分类模型,然后对输入的账号进行分类,对人力消耗非常大。而且,由于整体长度较小的字符串包含的信息量太少,因此分类模型对整体长度较小的字符串分类效果比较差,不能较好的识别。
发明内容
本说明书实施例提供一种对批量生成的字符串进行识别的方法、装置及设备。解决了人工标注大量账号消耗人力大以及分类模型对整体长度较小的字符串分类效果比较差的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种对批量生成的字符串进行识别的方法,该方法包括:
接收批量生成的待识别字符串;
对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;
确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;
根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。
本说明书实施例提供的一种对批量生成的字符串进行识别的装置,该装置包括:接收模块、分割模块、确定模块和判断模块;
所述接收模块,用于接收批量生成的待识别字符串;
所述分割模块,用于对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;
所述确定模块,用于确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;
所述判断模块,用于根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。
本说明书实施例提供的一种对批量生成的字符串进行识别的设备,包括:存储器以及处理器,所述存储器存储程序,并且被配置成由所述处理器执行上述的对批量生成的字符串进行识别的方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过确定字符串的子字符串出现概率,确定字符串的随机性程度,进一步判断该字符串是否为随机生成的字符串,整个过程无需人工标注大量的训练数据,节省了人力成本;针对待识别字符串的类型,可以有针对性的选择样本字符串数据;改善了对整体长度较小的字符串进行识别的效果。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蚂蚁金服(杭州)网络技术有限公司,未经蚂蚁金服(杭州)网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811074092.2/2.html,转载请声明来源钻瓜专利网。