[发明专利]一种URL分类方法和系统、数据处理方法和系统有效
申请号: | 201710012795.1 | 申请日: | 2017-01-09 |
公开(公告)号: | CN108287831B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 郭家龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/955 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;徐焕 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 url 分类 方法 系统 数据处理 | ||
本申请提供了一种URL分类方法和系统、数据处理方法和系统,其中,该URL分类方法包括:确定待分类统一资源定位符URL中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;根据所述标识数据,对所述待分类URL进行分类。利用本申请实施例提供的技术方案,可以解决现有技术中URL进行分析处理时,重复性操作太多,处理效率低下的技术问题,达到了提高URL的处理效率的技术效果。
技术领域
本申请属于数据处理技术领域,尤其涉及一种URL分类方法和系统、数据处理方法和系统。
背景技术
随着网络技术的不断发展,人们对互联网的使用也越来越多。对互联网数据的处理工作也变得更为繁琐。例如:对于网络流量而言,有些是正常的网络流量(例如:人们正常的方位流量),有些是异常的网络流量(例如:非法登陆、请求失败等等)。
如何实现对网络流量的分析处理,对于互联网的安全和有序运行起着重要的作用。考虑到统一资源定位符(Uniform Resource Locator,简称为URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
因此,对URL进行分析可以获知很多的网络信息,例如,通过对URL进行分析整理,可以知道哪些URL是有危险,哪些是安全的。对URL中所携带的信息进行检测,也可以知道网站的流量,以及浏览情况等等。
然而,现有的对URL进行分析整理,一般是按照一条URL、一条URL的方式逐条遍历的方式进行处理的。即,对每条URL都进行具体的分析和处理,这显然是不合适的,这种方式大大增加了分析处理操作的工作量,降低了URL分析处理的效率。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请目的在于提供一种URL分类方法和系统、数据处理方法和系统,可以实现对URL的高效处理。
本申请提供一种URL分类方法和系统、数据处理方法和系统是这样实现的:
一种URL分类方法,所述方法包括:
确定待分类统一资源定位符URL中是否有查询参数名字段;
如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;
如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;
根据所述标识数据,对所述待分类URL进行分类。
一种URL分类方法,所述方法包括:
按照预设的字段提取规则,从待分类URL的中提取字段;
将提取的字段,作为所述待分类URL的标识数据,其中,所述标识数据用于表征所述待分类URL的处理逻辑;
根据所述标识数据,对所述待分类URL进行分类。
一种数据处理方法,所述方法包括:
将待审计的网站流量日志中的URL划分为多个类别,其中,同一类别中URL对应同一套处理逻辑;
对同一类别中的多条URL,仅提取一条进行分析处理。
一种URL分类系统,所述系统包括:
确定模块,用于确定待分类URL中是否有查询参数名字段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710012795.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于IOS平台的决策气象服务系统
- 下一篇:插入标签的方法和装置