[发明专利]网络资源地址URL的处理方法和装置有效
申请号: | 201510887877.1 | 申请日: | 2015-12-07 |
公开(公告)号: | CN106844389B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 王意林;余成章;李攀;龙齐;杨亮 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络资源 地址 url 处理 方法 装置 | ||
1.一种网络资源地址URL的处理方法,其特征在于,包括:
获取多个待处理的接口地址中每个接口地址所属的接口目录,其中,所述接口地址中记录有所述接口地址所属的接口目录;
按照预设过滤条件,基于所述接口目录对所述接口地址进行过滤,得到过滤后的接口地址;
对所述过滤后的接口地址进行统计;
其中,按照预设过滤条件,基于所述接口目录对所述接口地址进行过滤,得到过滤后的接口地址包括:判断所述接口目录中是否包含数字型参数;若所述接口目录不包含所述数字型参数,则判断出所述接口目录为有效接口目录;统计所述有效接口目录所包含的所述接口地址的总量;若属于所述有效接口目录的接口地址的总量超过预设阈值,则对所述有效接口目录所包含的所述接口地址进行二次过滤,得到所述过滤后的接口地址;若属于所述有效接口目录的接口地址的总量未超过所述预设阈值,则将属于所述有效接口目录的所述接口地址作为所述过滤后的接口地址;
所述数字型参数是指N位连续数字,其中,N为自然数;所述对所述有效接口目录所包含的所述接口地址进行二次过滤是指获取所述有效接口目录所包含的各个接口地址的接口数量;计算多个接口数量的标准差;若接口数量大于M倍的标准差,则将所述接口数量对应的接口地址作为所述过滤后的接口地址,其中,所述M为自然数。
2.根据权利要求1所述的方法,其特征在于,判断所述接口目录中是否包含数字型参数包括:
判断所述接口目录中是否存在N位连续数字,其中,N为自然数;
若所述接口目录中存在所述N位连续数字,则判断出所述接口目录包含所述数字型参数;
若所述接口目录中不存在所述N位连续数字,则判断出所述接口目录不包含所述数字型参数。
3.根据权利要求1所述的方法,其特征在于,获取所述有效接口目录所包含的各个接口地址的接口数量包括:
统计每个所述接口地址在网站流量表中出现的次数,将所述次数作为所述接口地址的接口数量;
将所述接口地址与所述接口数量的对应关系保存在数据表中;
从所述数据表中读取与属于所述有效接口目录的各个接口地址对应的接口数量。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,对所述过滤后的接口地址进行统计包括:
获取所述过滤后的接口地址所属的域名信息;
若所述过滤后的接口地址所属的域名信息存在于预先获取的域名列表中,则提取所述过滤后的接口地址;
基于提取到的所述过滤后的接口地址,统计属于所述域名信息的接口地址的数量。
5.根据权利要求1至3中任意一项所述的方法,其特征在于,在获取多个接口地址中每个接口地址所属的接口目录之前,所述方法还包括:
获取网站流量表中的各个网络资源地址URL;
去除各个所述URL中的参数,得到各个所述URL的接口地址,并对所述URL的接口地址进行去重,得到所述多个待处理的接口地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510887877.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种益母草中药制剂及炮制工艺
- 下一篇:一种筋骨镇痛膏及其制备方法和应用