[发明专利]网络资源地址URL的处理方法和装置有效

专利信息
申请号: 201510887877.1 申请日: 2015-12-07
公开(公告)号: CN106844389B 公开(公告)日: 2021-05-04
发明(设计)人: 王意林;余成章;李攀;龙齐;杨亮 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F16/955 分类号: G06F16/955
代理公司: 北京博浩百睿知识产权代理有限责任公司 11134 代理人: 宋子良
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络资源 地址 url 处理 方法 装置
【说明书】:

本申请公开了一种网络资源地址URL的处理方法和装置。其中,该方法包括:获取多个待处理的接口地址中每个接口地址所属的接口目录,其中,接口地址中记录有接口地址所属的接口目录;按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址;对过滤后的接口地址进行统计。本申请解决了对URL的去重操作结果不精确的问题造成统计URL效率低的技术问题。

技术领域

本申请涉及数据处理领域,具体而言,涉及一种网络资源地址URL的处理方法和装置。

背景技术

现有技术中,在处理海量的访问日志时,通常需对访问日志中的网络资源地址URL进行去重和整理,以对于没有统计价值的接口进行识别和剔除,并从中提取出有效的接口,如网站A每天有几十亿级别的访问日志,去重后约6000个。通过上述方案,对于一些扫描器不能支持的漏洞类型(如水平权限漏洞),在把接口地址的数量控制在一定数量(如上述的6000个)之后,可以采取人工增量确认的方法进行覆盖,给大规模排查此类漏洞提供了可能。另外,当出现一个安全问题后,可以基于该一定数量的接口地址快速排查其他URL是否存在问题。

但是,目前对于URL的去重方法主要通过图1所示的方案实现:

步骤S102:获取URL。

步骤S104:判断获取的URL是否携带有参数。

若获取的URL携带有参数,则执行步骤S106;若获取的URL未携带有参数,则执行步骤S108。

步骤S106:去除URL中的参数。

步骤S108:直接输出该URL。

步骤S110:对输出的URL进行去重处理,得到处理后的URL。

具体地,上述方案可能存在如下缺陷:

(1)因为SEO(搜索引擎优化)的原因会把参数放到文件名当中,这会对URL地址的参数产生混淆,如1688.com/view/100.html和1688.com/view/101.html,这两个地址实质上是一个接口地址,但是这两个网址中的参数100和101被放在了文件名中,通过上述方法会被识别为两个接口;

(2)泛域名下的相同接口,也会对结果产生混淆,如100.1688.com/view.html和101.1688.com/view.html,这两个本身是同一个接口地址,但是由于两个接口地址的泛域不同(分别为100.1688.com和101.1688.com),通过上述方法也会被识别成两个接口地址;

(3)参数放到URL路径当中,这会对结果产生混淆,如1688.com/100/view.html和1688.com/101/view.html,这两个其实是同一个接口地址,但在上述方法中会被识别为两个接口。

在上述方案中,把URL中参数部分去掉,对剩下的部分进行去重。仅对没有参数的URL(即接口地址)进行去重操作,不能做到真正有效去重(如100亿级别去重后可能有几十万上百万个)。

针对上述对URL的去重操作结果不精确造成统计URL效率低的问题,目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种网络资源地址URL的处理方法和装置,以至少解决对URL的去重操作结果不精确的问题造成统计URL效率低的技术问题。

根据本申请实施例的一个方面,提供了一种网络资源地址URL的处理方法,该方法包括:获取网站流量表中的各个网络资源地址URL;去除各个URL中的参数,得到各个URL的接口地址,并对接口地址进行去重,得到接口地址;获取每个接口地址所属的接口目录,其中,接口地址中记录有接口地址所属的接口目录;按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址;对过滤后的接口地址进行统计。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510887877.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top