[发明专利]一种文本相似度进行量化的方法及其系统有效

专利信息
申请号: 202011002822.5 申请日: 2020-09-22
公开(公告)号: CN112100381B 公开(公告)日: 2022-05-17
发明(设计)人: 刘德建;任佳伟;陈宏展 申请(专利权)人: 福建天晴在线互动科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33
代理公司: 福州旭辰知识产权代理事务所(普通合伙) 35233 代理人: 程勇
地址: 350212 福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 相似 进行 量化 方法 及其 系统
【说明书】:

本发明提供了一种文本相似度进行量化的方法,所述方法为:步骤S1、接收要判断的两个文本相似度的请求,以及接收设定的一因子权值表,步骤S2、读取两个文本对应的字符串StrA和StrB,并获取字符串StrA和StrB的字符串长度,得到Len_A和Len_B,分别对StrA和StrB进行骨架拆分;步骤S3、根据骨架拆分的零件长度集合PartSizeList_A、PartSizeList_B生成存储字符数据格式的零件长度集合PartSizeStr_A、PartSizeStr_B;步骤S4、根据骨架拆分得到的各计算参数计算相似度因子,步骤S5、结合所述因子权值表,对各相似度因子加权求和,得出整体相似度,从而判断两个文本是否相似;从而判断出非法账号,从而对非法账号进行监控和封禁。

技术领域

本发明涉及计算机系统通信技术领域、黑产检测领域,提供一种适用于鉴别非法账号的文本相似度进行量化的方法及一套经过大量数据测试调优后的参数集合。此方法尤其适合作为对账号集合进行分组并从中筛选出非法账号的业务场景中的相似度比较和相似度量化方式,使用者可以以此方法为基础,统计账号集合中每一组相似账号的数量,从而筛选出非法账号。

背景技术

非法账号一词即为:描述游戏工作室刷金账号、网络论坛水军账号等非法用途的账号,黑产团队为了方便账号管理往往批量注册具有连号特征的非法账号集合,如feifa1、feifa2、feifa3…feifa1000这样的由特定格式生成的账号集合。

目前有许多从事网络黑色产业的非法团队,通过非法利用网络程序内部漏洞或使用不受许可的第三方非法软件,借助人力操控或软件操控等途径批量注册、登陆、操控账号,实现非法牟利、引导舆论、恶意攻击网络服务提供方等目的,严重侵害网络服务提供方的合法利益;另外黑产团队占用网络服务提供方的网络带宽、服务器资源,也会导致合法用户无法正常享受网络服务方提供的网络服务。对于网络服务提供商,面对上述威胁,需要通过封禁非法账号的方式对抗非法攻击,例如游戏公司需要封禁游戏工作室的打金账号,网络论坛需要封禁发布广告或反动、色情信息的账号等。由于非法团队的账号往往相似度非常高(例如以feifazhanghao1、feifazhanghao2、feifahzanghao3这样的连号形式存在),因此将该些账号保存在文本中可以通过相似度分析的方法批量分析账号,比较账号之间的相似度,从而对账号进行分组并根据相似数据出现的频率从中筛选出工作室的非法账号。

专利引用了两种现有的文本相似度量化技术作为辅助量化手段。

编辑距离,也叫莱文斯坦距离(Levenshtein),是针对二个字符串(例如英文字)的差异程度的量化测量,测量方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串(删除、加入、取代字符串中的任何一个字元称为一次处理)。参考文章:https://zhuanlan.zhihu.com/p/91667128。

Jaro-winkler相似度算法,是基于Jaro相似度算法的一种延伸。Jaro距离算法(jarodistance)是基于编辑距离拓展出来的一种文本相似度量化算法,算法内容如下,给定两个文本串,它们的Jaro相似度定义为:其中m是匹配目数(保证顺序相同),|s|是字符串长度,t是换位数目。如果两个分别来自S1和S2的字符相距不超过则认定它们是匹配的。而这些相互匹配的字符则决定了换位的数目t,简单来说就是不同顺序的匹配字符的数目的一半即为换位的数目t,举例来说,MARTHA与MARHTA的字符都是匹配的,但是这些匹配的字符中,T和H要换位才能把MARTHA变为MARHTA,那么T和H就是不同的顺序的匹配字符,t=2/2=1;那么这两个字符串的Jaro相似度即为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴在线互动科技有限公司,未经福建天晴在线互动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011002822.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top