[发明专利]一种文本相似度进行量化的方法及其系统有效

专利信息
申请号: 202011002822.5 申请日: 2020-09-22
公开(公告)号: CN112100381B 公开(公告)日: 2022-05-17
发明(设计)人: 刘德建;任佳伟;陈宏展 申请(专利权)人: 福建天晴在线互动科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33
代理公司: 福州旭辰知识产权代理事务所(普通合伙) 35233 代理人: 程勇
地址: 350212 福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 相似 进行 量化 方法 及其 系统
【权利要求书】:

1.一种文本相似度进行量化的方法,其特征在于:所述方法适用于鉴别非法账号,所述方法包括如下步骤:

步骤S1、接收要判断的两个文本相似度的请求,以及接收设定的一因子权值表,

步骤S2、读取两个文本对应的字符串StrA和StrB,并获取字符串StrA和StrB的字符串长度,得到Len_A和Len_B,分别对StrA和StrB进行骨架拆分,得到骨架结构Skeleton_A、Skeleton_B;得到零件长度集合PartSizeList_A、PartSizeList_B;得到零件数量PartAmount_A、PartAmount_B;得到每个零件的内容集合PartContentList_A、PartContentList_B;将字符串中连续的同类字符作为一组,分成不同组,将这种分类方法称为字符串的骨架拆分,将零件的分布称为文本的骨架结构;

步骤S3、基于零件长度集合PartSizeList_A、PartSizeList_B生成存储字符数据格式的零件长度集合PartSizeStr_A、PartSizeStr_B;

步骤S4、根据骨架结构Skeleton_A、Skeleton_B,零件数量PartAmount_A、PartAmount_B,每个零件的内容集合PartContentList_A、PartContentList_B,存储字符数据格式的零件长度集合PartSizeStr_A、PartSizeStr_B来获取字符串StrA和StrB的各相似度因子,

步骤S5、结合所述因子权值表,对各相似度因子加权求和,得出整体相似度,从而判断两个文本是否相似,来对文本中账号进行聚类分组,将相似的账号分为一组,然后统计数量异常的组,从而对非法账号进行监控和封禁。

2.根据权利要求1所述的一种文本相似度进行量化的方法,其特征在于:对StrA和StrB进行骨架拆分的方式一样,其中对StrA进行骨架拆分的实现方式具体包括如下步骤:步骤21、接收到对字符串StrA进行骨架拆分的请求;

步骤22、申请一块连续的内存用于存储字符串格式的骨架结构Skeleton;

步骤23、创建两个空的列表,一个命名为PartSizeList,是一个存储数字格式数据的列表,用于按顺序存储每个零件的长度,即每个零件的字符串长度,ParSizeList插入一个大小为0的数字数据成员;另一个命名为PartContentList,是一个存储字符串格式数据的列表,用于按顺序存储每个零件的内容,PartContentList插入一个空的字符串;

步骤24、新建一个字节tmp用于存储上一次读取的字节内容并将字节tmp初始化为空字符串;

步骤25、从StrA中读取1字节的数据CharA,如果CharA为字符串的结束符则进入步骤29;否则进入步骤26;

步骤26、如果CharA的ASCII码在0x30-0x39之间则判定为数字类型字符,否则判定为非数字类型字符,进入步骤27;

步骤27、如果此时tmp为空字符串或tmp与CharA的数据类型相同,则将PartSizeList的最后一个数据成员大小加1,使用字符串拼接的方式将CharA拼接到PartContentList的最后一个数据成员的尾部,将CharA赋值给tmp,进入步骤25;如果tmp与CharA的数据类型不同,PartSizeList插入一个大小为1的新数据成员,PartContentList插入一个内容为CharA的新字符数据成员;将CharA赋值给tmp,进入步骤28;

步骤28、如果CharA为数字类型数据,则通过字符串拼接的方式在Skeleton的尾部拼接字符I,否则在Skeleton的尾部拼接字符S,进入步骤25;

步骤29、获取Skeleton的字符串长度,这个长度即为StrA的零件数量PartAmount;

步骤30、返回StrA的零件数量PartAmount_A、骨架结构Skeleton_A、零件长度集合PartSizeList_A、零件内容集合PartContentList_A。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴在线互动科技有限公司,未经福建天晴在线互动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011002822.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top