[发明专利]一种分布式网站日志数据采集方法和分布式网站系统无效
申请号: | 200710177939.5 | 申请日: | 2007-11-22 |
公开(公告)号: | CN101163046A | 公开(公告)日: | 2008-04-16 |
发明(设计)人: | 宁辉;张涛 | 申请(专利权)人: | 北京金山软件有限公司;北京金山数字娱乐科技有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100083北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 网站 日志 数据 采集 方法 系统 | ||
技术领域
本发明涉及互联网数据处理技术,尤其是分布式网站日志采集方法。
背景技术
随着互联网的普及,为了提高互联网应用中数据处理速度以及满足数据量越来越大的要求,很多大型网站逐步采用了分布式的网络结构主要在于实现负载的均衡。
所述分布式的结构是使用多个同样角色的服务器做前台的WEB服务,这种结构大大方便了服务的分布规划和扩展性。但另一方面,多个服务器的分布设置使得网络日志数据的分析统计也变得有些麻烦。
例如采用现有较通用的一款网页分析工具webalizer,那么对于分布式的网络结构,就需要对每台服务器分别做日志数据统计,从而带来以下的问题:
1、数据的汇总带来很多麻烦,比如:统计的总访问量需要将服务器1(SERVER1)、服务器2(SERVER2)......上指定期限内的数据相加;
2、对于唯一访客数unique visits,唯一站点数unique sites的等指标的统计造成影响,基于网络分布式的网络结构特点以及负载均衡的机制,上述这些指标的统计并非是将几台服务器上数据的代数相加。
并且,在上述问题基础上,在每台服务器上配置日志数据分析功能将提高服务器的环境的复杂度,降低服务器运行的安全性能;并且,分布式结构中各服务器的日志数据分析功能需要保持一致,当变更某一服务器上的日志数据分析功能后,为了实现全网数据的统计,不得不将所有服务器上的日志数据分析功能进行适应性的变更,使得数据完整性不易监控,并提高了维护成本。因此,在一定程度上限制了分布式网站的可扩展性和部署。
发明内容
本发明实施例要提供分布式网站日志采集方法。目的在于降低网络日志数据统计的复杂度,并且提高分布式网站的可扩展性。
为解决上述技术问题,本发明所提供的分布式网站日志采集方法实施例是通过以下技术方案实现的:
一种分布式网站日志数据采集方法,包括:对WEB服务器的日志数据进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集中处理服务器将收到的日志数据文件合并为一个文件。
上述方法中,WEB服务器上传日志数据前,对净化后的日志数据进行压缩,并标记服务器的标识;集中处理服务器依据服务器列表,根据所述服务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否到达。
上述方法基础上,WEB服务器上传日志数据前,进一步对压缩后得到的日志数据文件生成第一校验文件,以及将所述第一校验文件发送到集中处理服务器;集中处理服务器采用与WEB服务器相同的校验算法对获取到的日志数据文件生成第二校验文件,若所述第一校验文件与所述第二校验文件不同,则触发WEB服务器重新上传日志数据文件。
相应的本发明实施例还提供了分布式网站系统,包括:WEB服务器,集中处理服务器;其中,WEB服务器,用于对已保存的日志数据进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集中处理服务器将收到的日志数据文件合并为一个文件。
在上述系统结构基础上,WEB服务器,进一步用于对净化后的日志数据进行压缩,并标记服务器的标识;集中处理服务器,用于依据服务器列表,根据所述服务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否到达。
进一步的,WEB服务器,还包括:对压缩后得到的日志数据文件生成第一校验文件,以及将所述第一校验文件发送到集中处理服务器;集中处理服务器,还用于采用与WEB服务器相同的校验算法对获取到的日志数据文件生成第二校验文件,若所述第一校验文件与所述第二校验文件不同,则触发WEB服务器重新上传日志数据文件。
由以上技术方案可以看出,本发明中在各WEB服务器上报日志数据之前对待上报的日志数据进行净化处理,因而,减小了集中处理服务器的工作负荷;并且,由于本发明中各WEB服务器仅需要在上报日志数据前进行净化处理,与现有技术相比,不需要在WEB服务器配置太多的CGI环境(所述CGI环境是一种运行在网络服务器上的程序环境,该程序用于超文本传输协议HTTP服务器与其它终端上的程序进行交互)或者其他特殊要求,仅利用系统本身的功能就可达到本方案的要求,使得本发明WEB服务器具有较高的安全性,并且,本发明不会出现现有技术中“为了实现全网数据的统计,不得不将所有服务器上的日志数据分析功能进行统一化的变更”,因此使得本发明的系统部署简单,提高了系统的可扩展性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山软件有限公司;北京金山数字娱乐科技有限公司,未经北京金山软件有限公司;北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710177939.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动存储装置与主机通信的系统和方法
- 下一篇:温度控制装置和方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置