[发明专利]一种分布式网站日志数据采集方法和分布式网站系统无效

专利信息
申请号: 200710177939.5 申请日: 2007-11-22
公开(公告)号: CN101163046A 公开(公告)日: 2008-04-16
发明(设计)人: 宁辉;张涛 申请(专利权)人: 北京金山软件有限公司;北京金山数字娱乐科技有限公司
主分类号: H04L12/24 分类号: H04L12/24;H04L12/26
代理公司: 北京集佳知识产权代理有限公司 代理人: 逯长明
地址: 100083北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分布式 网站 日志 数据 采集 方法 系统
【说明书】:

技术领域

发明涉及互联网数据处理技术,尤其是分布式网站日志采集方法。

背景技术

随着互联网的普及,为了提高互联网应用中数据处理速度以及满足数据量越来越大的要求,很多大型网站逐步采用了分布式的网络结构主要在于实现负载的均衡。

所述分布式的结构是使用多个同样角色的服务器做前台的WEB服务,这种结构大大方便了服务的分布规划和扩展性。但另一方面,多个服务器的分布设置使得网络日志数据的分析统计也变得有些麻烦。

例如采用现有较通用的一款网页分析工具webalizer,那么对于分布式的网络结构,就需要对每台服务器分别做日志数据统计,从而带来以下的问题:

1、数据的汇总带来很多麻烦,比如:统计的总访问量需要将服务器1(SERVER1)、服务器2(SERVER2)......上指定期限内的数据相加;

2、对于唯一访客数unique visits,唯一站点数unique sites的等指标的统计造成影响,基于网络分布式的网络结构特点以及负载均衡的机制,上述这些指标的统计并非是将几台服务器上数据的代数相加。

并且,在上述问题基础上,在每台服务器上配置日志数据分析功能将提高服务器的环境的复杂度,降低服务器运行的安全性能;并且,分布式结构中各服务器的日志数据分析功能需要保持一致,当变更某一服务器上的日志数据分析功能后,为了实现全网数据的统计,不得不将所有服务器上的日志数据分析功能进行适应性的变更,使得数据完整性不易监控,并提高了维护成本。因此,在一定程度上限制了分布式网站的可扩展性和部署。

发明内容

本发明实施例要提供分布式网站日志采集方法。目的在于降低网络日志数据统计的复杂度,并且提高分布式网站的可扩展性。

为解决上述技术问题,本发明所提供的分布式网站日志采集方法实施例是通过以下技术方案实现的:

一种分布式网站日志数据采集方法,包括:对WEB服务器的日志数据进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集中处理服务器将收到的日志数据文件合并为一个文件。

上述方法中,WEB服务器上传日志数据前,对净化后的日志数据进行压缩,并标记服务器的标识;集中处理服务器依据服务器列表,根据所述服务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否到达。

上述方法基础上,WEB服务器上传日志数据前,进一步对压缩后得到的日志数据文件生成第一校验文件,以及将所述第一校验文件发送到集中处理服务器;集中处理服务器采用与WEB服务器相同的校验算法对获取到的日志数据文件生成第二校验文件,若所述第一校验文件与所述第二校验文件不同,则触发WEB服务器重新上传日志数据文件。

相应的本发明实施例还提供了分布式网站系统,包括:WEB服务器,集中处理服务器;其中,WEB服务器,用于对已保存的日志数据进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集中处理服务器将收到的日志数据文件合并为一个文件。

在上述系统结构基础上,WEB服务器,进一步用于对净化后的日志数据进行压缩,并标记服务器的标识;集中处理服务器,用于依据服务器列表,根据所述服务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否到达。

进一步的,WEB服务器,还包括:对压缩后得到的日志数据文件生成第一校验文件,以及将所述第一校验文件发送到集中处理服务器;集中处理服务器,还用于采用与WEB服务器相同的校验算法对获取到的日志数据文件生成第二校验文件,若所述第一校验文件与所述第二校验文件不同,则触发WEB服务器重新上传日志数据文件。

由以上技术方案可以看出,本发明中在各WEB服务器上报日志数据之前对待上报的日志数据进行净化处理,因而,减小了集中处理服务器的工作负荷;并且,由于本发明中各WEB服务器仅需要在上报日志数据前进行净化处理,与现有技术相比,不需要在WEB服务器配置太多的CGI环境(所述CGI环境是一种运行在网络服务器上的程序环境,该程序用于超文本传输协议HTTP服务器与其它终端上的程序进行交互)或者其他特殊要求,仅利用系统本身的功能就可达到本方案的要求,使得本发明WEB服务器具有较高的安全性,并且,本发明不会出现现有技术中“为了实现全网数据的统计,不得不将所有服务器上的日志数据分析功能进行统一化的变更”,因此使得本发明的系统部署简单,提高了系统的可扩展性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山软件有限公司;北京金山数字娱乐科技有限公司,未经北京金山软件有限公司;北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710177939.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top