[发明专利]一种海量数据处理方法和系统有效
申请号: | 201110182296.X | 申请日: | 2011-06-30 |
公开(公告)号: | CN102214236A | 公开(公告)日: | 2011-10-12 |
发明(设计)人: | 祝博立 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据处理 方法 系统 | ||
技术领域
本发明涉及数据处理技术,特别是涉及一种海量数据处理方法和系统。
背景技术
随着互联网技术的迅猛发展,互联网用户的数量急剧增长,因此,对于互联网用户数据的采集、清洗、统计、分析等数据处理的需求越来越多。同时,互联网用户数据的量级也在呈爆炸式的增长,从而导致上述数据处理的压力进一步增大。
目前,在对互联网用户的海量数据进行处理时,采用分布式平台(Hadoop)技术与数据仓库平台(Hive)技术相结合的方法。在分布式平台存储海量数据,通过控制台命令调用数据仓库操作语句(HQL)的计算命令对分布式平台存储的海量数据进行统计、分析等处理,该方法在命令调用时的灵活性差。
发明内容
本发明提供了一种海量数据处理方法,采用该方法能够增强海量数据处理的灵活性。
本发明还提供了一种海量数据处理系统,采用该系统能够增强海量数据处理的灵活性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种海量数据处理方法,包括:
调度模块根据获取的当前业务信息和预设的调度策略判断是否调用数据仓库操作语句,当判断为是时,根据获取的当前业务信息和预设的调度策略获取调用顺序;
调度模块根据所述调用顺序向数据仓库平台调用数据仓库操作语句;
数据仓库平台从关系数据库中读取所述数据仓库操作语句对应的配置信息;
数据仓库平台根据所述调用顺序触发所述数据仓库操作语句对分布式平台存储的数据进行运算,生成结果数据并存储到所述分布式平台。
所述生成结果文件并存储到所述分布式平台之后,还包括:
调度模块控制所述分布式平台将所述结果数据导入所述关系数据库;
调度模块控制缓存模块根据预设的展现策略从所述关系数据库中抽取常用的结果数据;
数据展现平台从所述缓存模块中读取并展现所述常用的结果数据。
所述数据展现平台从所述缓存模块中读取并展现所述常用的结果文件之后,还包括:
数据展现平台从所述关系数据库中读取并展现所述结果数据。
所述调度模块根据获取的当前业务信息和预设的调度策略判断是否调用数据仓库操作语句之前,还包括:
数据接入平台向分布式平台传输至少一次数据;
当每次传输完成时,数据接入平台向消息接口模块发送数据传输完成消息;
所述调度模块从所述消息接口模块获取至少一次所述数据传输完成消息,作为所述当前业务信息。
所述数据接入平台向消息接口模块发送数据传输完成消息包括:
所述数据接入平台采用谷歌消息传输方案protoBuffer通讯方式向消息接口模块发送所述数据传输完成消息。
本发明公开了一种海量数据处理系统,包括:
调度模块,用于根据获取的当前业务信息和预设的调度策略判断是否调用数据仓库操作语句,当判断为是时,根据获取的当前业务信息和预设的调度策略获取调用顺序,根据所述调用顺序向数据仓库平台调用数据仓库操作语句;
所述数据仓库平台,用于从关系数据库中读取所述数据仓库操作语句对应的配置信息,根据所述调用顺序触发所述数据仓库操作语句对分布式平台存储的数据进行运算,生成结果数据并存储到所述分布式平台;
所述关系数据库,用于存储所述数据仓库操作语句对应的配置信息;
分布式平台,用于存储所述数据和所述结果数据。
所述调度模块还用于控制所述分布式平台将所述结果数据导入所述关系数据库,控制缓存模块根据预设的展现策略从所述关系数据库中抽取常用的结果数据;
所述系统还包括:
所述缓存模块:用于缓存所述常用的结果数据;
数据展现平台,用于从所述缓存模块中读取并展现所述常用的结果数据。
所述数据展现平台还用于从所述关系数据库中读取并展现所述结果数据。
所述系统还包括:
数据接入平台,用于向分布式平台传输至少一次数据,当每次传输完成时,向消息接口模块发送数据传输完成消息;
所述消息接口模块,用于接收所述数据传输完成消息;
所述调度模块,还用于从所述消息接口模块获取至少一次所述数据传输完成消息,作为所述当前业务信息。
所述数据接入平台具体用于采用谷歌消息传输方案protoBuffer通讯方式向消息接口模块发送所述数据传输完成消息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110182296.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动利用率驱动库存管理
- 下一篇:RFID标签、以及RFID系统