[发明专利]相似URL字符串识别方法、装置、计算机设备和存储介质在审
申请号: | 202110494522.1 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113282849A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 张强;王涛;皇甫道一;张昭;刘浩杰 | 申请(专利权)人: | 南京苏宁软件技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/31;G06F16/33;G06F21/57 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 张慧娟 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 url 字符串 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请公开一种相似URL字符串识别方法、装置、计算机设备和存储介质,属于信息安全技术领域,方法包括:获取满足预设条件的多条URL字符串;对各URL字符串中的指定字段进行二进制编码,并根据各URL字符串中的指定字段的编码结果,生成编码矩阵,编码矩阵中的每一行编码对应一条URL字符串;针对编码矩阵中的当前行编码,在编码矩阵中查找出所有与当前行编码相似的目标行编码;将目标行编码对应的URL字符串确定为当前行编码的目标行编码所对应的URL字符串。本申请实施例实现了相似URL字符串的批量识别,解决了传统方法需要将所有URL都读入内存,造成的内存溢出问题,从而实现了节约存储空间和易于比较的目的。
技术领域
本申请涉及信息安全技术领域,特别是涉及一种相似URL字符串识别方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的不断发展和互联网的快速普及,网络已经成为人们日常工作和生活中必不可少的技术工具。它在给我们带来实时便利的同时,网络安全问题也日益凸显。漏洞扫描技术是一种重要的信息安全技术,通过将它与其他信息安全技术(比如Web应用防火墙、入侵检测系统以及数据库审计系统等)配合使用,能够提高信息安全防范能力,显著降低网络安全风险。漏洞扫描是通过扫描等手段对指定的远程或者本地计算机系统的安全脆弱性进行检测,从而达到发现漏洞的一种安全检测方法。它主要包括网络漏扫、主机漏扫,以及数据库漏扫等不同种类。
大多数Web扫描系统,都是以域名为单位,采用网页爬虫的方式,模拟用户真实浏览情境,全面深入地爬取网站URL(Uniform Resource Locator,统一资源定位符),采用丰富的扫描插件,深度分析网站响应信息,帮助用户发现网站潜在的安全隐患。由于获得的URL许多都是相同的或者相似的(比如仅有个别参数不同的URL),对这些相同的或者相似的URL进行扫描是没有意义的,并且还会严重影响漏扫系统的扫描效率。因此,从获得的所有URL中识别出相同或相似的URL,显得尤为重要。但是现有的方法大都存在以下问题:
(1)只能识别出相同的URL,很难识别出相似的URL;
(2)传统方法通常需要将所有的URL都读入内存,然后再进行遍历比对,而海量URL存储通常需要占用较多的存储资源,因此很难将这些原始URL字符串同时读入内存。
发明内容
为了解决上述背景技术中提到的问题,本申请提供了一种相似URL字符串识别方法、装置、设备和存储介质,所述技术方案如下:
第一方面,提供了一种相似URL字符串识别方法,所述方法包括:
获取满足预设条件的多条URL字符串;
对各所述URL字符串中的指定字段进行二进制编码,并根据各所述URL字符串中的指定字段的编码结果,生成编码矩阵,所述编码矩阵中的每一行编码对应一条URL字符串;
针对所述编码矩阵中的当前行编码,在所述编码矩阵中查找出所有与所述当前行编码相似的目标行编码;
将所述目标行编码对应的URL字符串确定为所述当前行编码的目标行编码所对应的URL字符串。
进一步地,所述对各所述URL字符串中的指定字段进行二进制编码步骤之前,所述方法还包括:
针对每一个所述URL字符串中的指定字段,将所述指定字段中满足预设删除条件的字符进行删除。
优选地,所述预设删除条件包括:删除所述指定字段中的所有数字以及删除所述指定字段中的特殊字符之间的内容。
进一步地,所述对各所述URL字符串中的指定字段进行二进制编码,包括:
针对每一个所述URL字符串中的指定字段,使用改进的SimHash算法对所述指定字段进行,得到固定长度的二进制编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京苏宁软件技术有限公司,未经南京苏宁软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110494522.1/2.html,转载请声明来源钻瓜专利网。