[发明专利]一种文本相似度进行量化的方法及其系统有效
申请号: | 202011002822.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112100381B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 刘德建;任佳伟;陈宏展 | 申请(专利权)人: | 福建天晴在线互动科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 福州旭辰知识产权代理事务所(普通合伙) 35233 | 代理人: | 程勇 |
地址: | 350212 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相似 进行 量化 方法 及其 系统 | ||
1.一种文本相似度进行量化的方法,其特征在于:所述方法适用于鉴别非法账号,所述方法包括如下步骤:
步骤S1、接收要判断的两个文本相似度的请求,以及接收设定的一因子权值表,
步骤S2、读取两个文本对应的字符串StrA和StrB,并获取字符串StrA和StrB的字符串长度,得到Len_A和Len_B,分别对StrA和StrB进行骨架拆分,得到骨架结构Skeleton_A、Skeleton_B;得到零件长度集合PartSizeList_A、PartSizeList_B;得到零件数量PartAmount_A、PartAmount_B;得到每个零件的内容集合PartContentList_A、PartContentList_B;将字符串中连续的同类字符作为一组,分成不同组,将这种分类方法称为字符串的骨架拆分,将零件的分布称为文本的骨架结构;
步骤S3、基于零件长度集合PartSizeList_A、PartSizeList_B生成存储字符数据格式的零件长度集合PartSizeStr_A、PartSizeStr_B;
步骤S4、根据骨架结构Skeleton_A、Skeleton_B,零件数量PartAmount_A、PartAmount_B,每个零件的内容集合PartContentList_A、PartContentList_B,存储字符数据格式的零件长度集合PartSizeStr_A、PartSizeStr_B来获取字符串StrA和StrB的各相似度因子,
步骤S5、结合所述因子权值表,对各相似度因子加权求和,得出整体相似度,从而判断两个文本是否相似,来对文本中账号进行聚类分组,将相似的账号分为一组,然后统计数量异常的组,从而对非法账号进行监控和封禁。
2.根据权利要求1所述的一种文本相似度进行量化的方法,其特征在于:对StrA和StrB进行骨架拆分的方式一样,其中对StrA进行骨架拆分的实现方式具体包括如下步骤:步骤21、接收到对字符串StrA进行骨架拆分的请求;
步骤22、申请一块连续的内存用于存储字符串格式的骨架结构Skeleton;
步骤23、创建两个空的列表,一个命名为PartSizeList,是一个存储数字格式数据的列表,用于按顺序存储每个零件的长度,即每个零件的字符串长度,ParSizeList插入一个大小为0的数字数据成员;另一个命名为PartContentList,是一个存储字符串格式数据的列表,用于按顺序存储每个零件的内容,PartContentList插入一个空的字符串;
步骤24、新建一个字节tmp用于存储上一次读取的字节内容并将字节tmp初始化为空字符串;
步骤25、从StrA中读取1字节的数据CharA,如果CharA为字符串的结束符则进入步骤29;否则进入步骤26;
步骤26、如果CharA的ASCII码在0x30-0x39之间则判定为数字类型字符,否则判定为非数字类型字符,进入步骤27;
步骤27、如果此时tmp为空字符串或tmp与CharA的数据类型相同,则将PartSizeList的最后一个数据成员大小加1,使用字符串拼接的方式将CharA拼接到PartContentList的最后一个数据成员的尾部,将CharA赋值给tmp,进入步骤25;如果tmp与CharA的数据类型不同,PartSizeList插入一个大小为1的新数据成员,PartContentList插入一个内容为CharA的新字符数据成员;将CharA赋值给tmp,进入步骤28;
步骤28、如果CharA为数字类型数据,则通过字符串拼接的方式在Skeleton的尾部拼接字符I,否则在Skeleton的尾部拼接字符S,进入步骤25;
步骤29、获取Skeleton的字符串长度,这个长度即为StrA的零件数量PartAmount;
步骤30、返回StrA的零件数量PartAmount_A、骨架结构Skeleton_A、零件长度集合PartSizeList_A、零件内容集合PartContentList_A。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴在线互动科技有限公司,未经福建天晴在线互动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011002822.5/1.html,转载请声明来源钻瓜专利网。