[发明专利]相似URL字符串识别方法、装置、计算机设备和存储介质在审
申请号: | 202110494522.1 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113282849A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 张强;王涛;皇甫道一;张昭;刘浩杰 | 申请(专利权)人: | 南京苏宁软件技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/31;G06F16/33;G06F21/57 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 张慧娟 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 url 字符串 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种相似URL字符串识别方法,其特征在于,所述方法包括:
获取满足预设条件的多条URL字符串;
对各所述URL字符串中的指定字段进行二进制编码,并根据各所述URL字符串中的指定字段的编码结果,生成编码矩阵,所述编码矩阵中的每一行编码对应一条URL字符串;
针对所述编码矩阵中的当前行编码,在所述编码矩阵中查找出所有与所述当前行编码相似的目标行编码;
将所述目标行编码对应的URL字符串确定为所述当前行编码的目标行编码所对应的URL字符串。
2.根据权利要求1所述的方法,其特征在于,所述对各所述URL字符串中的指定字段进行二进制编码步骤之前,所述方法还包括:
针对每一个所述URL字符串中的指定字段,将所述指定字段中满足预设删除条件的字符进行删除。
3.根据权利要求2所述的方法,其特征在于,所述预设删除条件包括:删除所述指定字段中的所有数字以及删除所述指定字段中的特殊字符之间的内容。
4.根据权利要求1所述的方法,其特征在于,所述对各所述URL字符串中的指定字段进行二进制编码,包括:
针对每一个所述URL字符串中的指定字段,使用改进的SimHash算法对所述指定字段进行编码处理,得到固定长度的二进制编码。
5.根据权利要求1至4任一所述的方法,其特征在于,所述针对所述编码矩阵中的当前行编码,在所述编码矩阵中查找出所有与所述当前行编码相似的目标行编码,包括:
针对所述编码矩阵中的当前行编码,对所述当前行编码中具有预设值的所有元素所对应的列进行逻辑运算,得到逻辑运算结果;
根据所述逻辑运算结果,在所述编码矩阵中查找所有与所述当前行编码相似的目标行编码。
6.根据权利要求5所述的方法,其特征在于,所述根据所述逻辑运算结果,在所述编码矩阵中查找出所有与所述当前行编码相似的目标行编码,包括:
根据所述逻辑运算结果中元素值为预设值的元素,在所述编码矩阵中确定出所有的候选行编码,并计算所述当前行编码与每一所述候选行编码之间的海明距离;
针对每一所述候选行编码,在所述当前行编码与所述候选行编码之间的海明距离不超过预设阈值时,将所述候选行编码确定为所有与所述当前行编码相似的目标行编码。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在多条所述URL字符串中删除所有与所述当前行编码相似的目标行编码所对应的URL字符串。
8.一种相似URL字符串识别装置,其特征在于,所述装置包括:
获取模块,用于获取满足预设条件的多条URL字符串;
编码模块,用于对各所述URL字符串中的指定字段进行二进制编码,并根据各所述URL字符串中的指定字段的编码结果,生成编码矩阵,所述编码矩阵中的每一行编码对应一条URL字符串;
查找模块,用于针对所述编码矩阵中的当前行编码,在所述编码矩阵中查找出所有与所述当前行编码相似的目标行编码;
确定模块,用于将所述目标行编码对应的URL字符串确定为所述当前行编码的目标行编码所对应的URL字符串。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行编码的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京苏宁软件技术有限公司,未经南京苏宁软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110494522.1/1.html,转载请声明来源钻瓜专利网。