[发明专利]数据分析系统及数据分析方法有效

专利信息
申请号: 201210307198.9 申请日: 2012-08-24
公开(公告)号: CN102880503A 公开(公告)日: 2013-01-16
发明(设计)人: 王锋;漆兴;赵国贤;王志强 申请(专利权)人: 新浪网技术(中国)有限公司
主分类号: G06F9/46 分类号: G06F9/46
代理公司: 北京市京大律师事务所 11321 代理人: 黄启行;方晓明
地址: 100080 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 分析 系统 方法
【说明书】:

技术领域

发明涉及数据分析技术领域,尤其涉及一种数据分析系统及数据分析方法。

背景技术

近几年,由于数据在互联网领域的持续增长,各公司都面临海量数据的处理需求。部门内的数据分析主要为公司各部门运维服务,数据分析主要基于各部门的服务器(Server)产生的日志来进行分析,如apache日志、nginx日志等,目的是基于这些日志对用户访问、数据流量在时间维度、产品线维度、域名维度等有明确的量化数据,从而为公司服务器运维管理、流量分配、预估等提供建议。

例如对某产品线的nginx日志进行收集,收集到日志后,需要对日志进行清洗,例如,按照每5分钟进行初步合并,并统计所有未来需要的字段数据,可能包含的有点击量、下载数据字节。同时需要按照多个维度进行统计,如按照产品线、域名,按照产品线、服务器ip等维度进行统计,该阶段涉及的数据量很大。

最终用户可以基于这些数据拿到某天详细的数据访问量曲线图,或者是某天、某小时的点击或带宽。也可以得到不同维度的下载速度数据等等。

现有技术的基于关系型数据库进行数据分析的过程,通常包括以下环节:日志收集、日志数据获取和初步处理、数据拆分入库、子表数据合并、数据库外聚合、数据展现等环节。

具体地,数据分析服务器在接收到从日志中获取的待分析数据后,先使用数据检查脚本程序对数据进行检查及格式化处理,然后做初步处理(如5分钟清洗处理,这个环节会将每行日志合并到每个所在的5分钟中(每小时包含12个5分钟,5分钟一个分析点)),然后在此基础上再使用其他异构脚本程序做其他的中间分析,这中间需要涉及到对关系型数据库的分表、拆表及合并,同时还需要考虑关系型数据库在千万级数据量下的处理速度,从而采用对于数据库集群的均衡方案,并从不同服务器上的数据库中拉取数据再使用其他的完成指定需求的脚本程序进行聚合。经过复杂的多层处理环节,最终统计出数据,并展示数据。

然而,随着网站规模及用户量的持续增长,数据量激增,现有技术的数据分析过程中通过复杂的分表、拆表、合并得出具体的分析结果,其技术实现流程复杂,需要专门的维护人员进行维护。而且,如果需要增加新的业务分析需求,则需要增加新的分析脚本,不利于扩展。

综上所述,现有技术的数据分析方法,因其需要对关系型数据库进行复杂的分表、拆表、合并等操作,实现流程复杂且不易维护;并且,现有技术的数据分析方法不利于扩展新的业务分析需求。

发明内容

本发明的实施例提供了一种数据分析系统及数据分析方法,提供一种不基于关系型数据库的数据分析方法,从而简化数据分析流程,便于维护。

根据本发明的一个方面,提供了一种数据分析系统,包括:

待调度任务生成模块,用于根据预先定义的任务参数将收集的数据生成待调度的任务;

待调度任务存储模块,用于存储所述待调度任务生成模块生成的待调度的任务;

任务调度模块和任务处理模块,所述任务调度模块从所述待调度任务存储模块加载待调度的任务,并根据加载的任务的任务类型调用相应的任务处理模块;

所述任务处理模块根据所述任务中的分析需求生成相应的类结构化查询语言Hive SQL语句向基于分布式计算Hadoop的数据仓库服务器发送;在接收到所述服务器返回的数据后完成对所述任务的数据分析。

其中,所述任务调度模块具体包括:主任务调度组件和从任务调度组件;

所述主任务调度组件用于从所述待调度任务存储模块加载待调度的任务,并根据加载的任务的任务类型调用相应的任务处理模块;

所述从任务调度组件用于在所述主任务调度组件退出运行或者无法正常运行后,从所述待调度任务存储模块加载待调度的任务,并根据加载的任务的任务类型调用相应的任务处理模块。

进一步,所述系统还包括:主优先级队列单元和从优先级队列单元;以及

所述主任务调度组件还用于加载待调度的任务到调度栈后,将所述调度栈中任务执行时间到达的任务封装到优先级对象中,并将所述优先级对象发送到所述主优先级队列单元;

所述主优先级队列单元用于接收到优先级对象后,将该优先级对象的优先级与所述主优先级队列单元中其它优先级对象的优先级进行比较,根据比较结果对该优先级对象进行排序;

所述从优先级队列单元用于定时保持其数据与所述主优先级队列单元中的数据的一致。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210307198.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top