[发明专利]一种网络日志URL的分析方法及装置有效

专利信息
申请号: 201210133170.8 申请日: 2012-04-28
公开(公告)号: CN103377260B 公开(公告)日: 2017-05-31
发明(设计)人: 张清 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京润泽恒知识产权代理有限公司11319 代理人: 苏培华
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络日志 url 分析 方法 装置
【说明书】:

技术领域

本申请涉及数据处理的技术领域,特别是涉及一种网络日志URL的分析方法和装置。

背景技术

在商业分析中经常会对这些海量Web log(网络日志)进行各种分析挖掘处理,其中,Web log的URL中包含着访客访问的重要信息,通常需要使用正则表达式与URL进行匹配,对匹配上的正则表达式所属类别进行商业分析。

现有技术中,整个Web log的URL处理过程分三步:

1.收集到海量的Web log并存储原始数据;

2.对URL进行正则表达式的匹配,每一条URL匹配到正则规则可能会有多条(通常为1-10条这个范围内);

3.根据正则规则对应的商业分类,产出商业分类的后续数据指标分析。

假设原始web log有n条,匹配正则表达式有m条,那么真实的匹配过程产生的数据匹配就会有n×m条。

以上现有技术中存在的问题是,URL正则匹配过程较为复杂,大型互联网Web log的记录数是海量的,多条正则匹配规则依次对海量的URL逐条进行正则匹配,计算量非常大,计算成本较高。

因此,本申请所要解决的技术问题是,提供一种网络日志URL的分析机制,以减少正则匹配的计算量,降低计算成本。

发明内容

本申请所要解决的技术问题是提供一种网络日志URL的分析方法, 以减少正则匹配的计算量,降低计算成本。

本申请还提供了一种网络日志URL的分析装置,用以保证上述方法在实际中的应用及实现。

为了解决上述问题,本申请公开了一种网络日志URL的分析方法,包括:

提取网页日志中的URL;

对所述URL进行去重处理;

依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;

针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;

对去重前各URL对应的不同的正则表达式编号进行统计。

优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。

优选的,所述针对去重前的所有URL,在去重后的URL中,找到与其相同的URL对应的正则表达式,作为对应的正则表达式的步骤包括:

将第二表格的数据进行行转列;

通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。

优选的,所述去重前URL对应的正则表达式编号,对应添加到第一表格中。

优选的,所述去重前URL对应的正则表达式编号,替换第一表格中对应的URL。

优选的,所述对去重前各URL对应的不同的正则表达式编号进行统计的步骤为,分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数。

优选的,所述正则表达式的编号为其所属商业类别的编号。

本申请还提供了一种网络日志URL的分析装置,包括:

URL提取模块,用于提取网页日志中的URL;

URL去重模块,用于对所述URL进行去重处理;

正则匹配模块,用于依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;

匹配结果复制模块,用于针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;

统计模块,用于对去重前各URL对应的不同的正则表达式编号进行统计。

优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。

优选的,所述匹配结果复制模块包括:

行转列子模块,用于将第二表格的数据进行行转列;

等值连接子模块,用于通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。

与现有技术相比,本申请具有以下优点:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210133170.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top