[发明专利]一种网络日志URL的分析方法及装置有效
申请号: | 201210133170.8 | 申请日: | 2012-04-28 |
公开(公告)号: | CN103377260B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张清 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络日志 url 分析 方法 装置 | ||
技术领域
本申请涉及数据处理的技术领域,特别是涉及一种网络日志URL的分析方法和装置。
背景技术
在商业分析中经常会对这些海量Web log(网络日志)进行各种分析挖掘处理,其中,Web log的URL中包含着访客访问的重要信息,通常需要使用正则表达式与URL进行匹配,对匹配上的正则表达式所属类别进行商业分析。
现有技术中,整个Web log的URL处理过程分三步:
1.收集到海量的Web log并存储原始数据;
2.对URL进行正则表达式的匹配,每一条URL匹配到正则规则可能会有多条(通常为1-10条这个范围内);
3.根据正则规则对应的商业分类,产出商业分类的后续数据指标分析。
假设原始web log有n条,匹配正则表达式有m条,那么真实的匹配过程产生的数据匹配就会有n×m条。
以上现有技术中存在的问题是,URL正则匹配过程较为复杂,大型互联网Web log的记录数是海量的,多条正则匹配规则依次对海量的URL逐条进行正则匹配,计算量非常大,计算成本较高。
因此,本申请所要解决的技术问题是,提供一种网络日志URL的分析机制,以减少正则匹配的计算量,降低计算成本。
发明内容
本申请所要解决的技术问题是提供一种网络日志URL的分析方法, 以减少正则匹配的计算量,降低计算成本。
本申请还提供了一种网络日志URL的分析装置,用以保证上述方法在实际中的应用及实现。
为了解决上述问题,本申请公开了一种网络日志URL的分析方法,包括:
提取网页日志中的URL;
对所述URL进行去重处理;
依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;
针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;
对去重前各URL对应的不同的正则表达式编号进行统计。
优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。
优选的,所述针对去重前的所有URL,在去重后的URL中,找到与其相同的URL对应的正则表达式,作为对应的正则表达式的步骤包括:
将第二表格的数据进行行转列;
通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。
优选的,所述去重前URL对应的正则表达式编号,对应添加到第一表格中。
优选的,所述去重前URL对应的正则表达式编号,替换第一表格中对应的URL。
优选的,所述对去重前各URL对应的不同的正则表达式编号进行统计的步骤为,分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数。
优选的,所述正则表达式的编号为其所属商业类别的编号。
本申请还提供了一种网络日志URL的分析装置,包括:
URL提取模块,用于提取网页日志中的URL;
URL去重模块,用于对所述URL进行去重处理;
正则匹配模块,用于依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;
匹配结果复制模块,用于针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;
统计模块,用于对去重前各URL对应的不同的正则表达式编号进行统计。
优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。
优选的,所述匹配结果复制模块包括:
行转列子模块,用于将第二表格的数据进行行转列;
等值连接子模块,用于通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。
与现有技术相比,本申请具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210133170.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:锻造载重车轮双向旋压模具
- 下一篇:一种焊接螺母锻造模具