[发明专利]一种海量数据处理方法及系统有效
申请号: | 200910092691.1 | 申请日: | 2009-09-15 |
公开(公告)号: | CN102023978A | 公开(公告)日: | 2011-04-20 |
发明(设计)人: | 张松国;胡茂华;陈元强;王选;文海荣;孙树昌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) 11270 | 代理人: | 张颖玲;蒋雅洁 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据处理 方法 系统 | ||
技术领域
本发明涉及数据处理技术,尤指一种海量数据处理方法及系统。
背景技术
互联网行业中,用户在浏览门户网站,尤其是在浏览大型门户网站时,往往每天会产生上百GB的点击数据(也称为海量数据)。为了准确掌握门户网站的业务运营情况,即时调整产品或内容运营策略,快速统计分析、长期存储这些海量数据尤为重要。
目前,对海量数据的处理是直接对原始数据进行处理并存储的方式。这样,会大大增加系统开销,而且大大降低系统处理、分析速度。从而降低了分析处理系统可靠性,增加了内存资源和CPU开销,不能很好地达到实时分析、永久存储的效果。
发明内容
有鉴于此,本发明的主要目的在于提供一种海量数据处理方法,能够降低存储开销,提升分析速度,增强分析处理系统可靠性,降低内存资源和CPU开销,从而达到实时分析的效果。
本发明的另一目的在于提供一种海量数据处理系统,能够降低存储开销,提升分析速度,增强分析处理系统可靠性,降低内存资源和CPU开销,从而达到实时分析的效果。
为达到上述目的,本发明的技术方案是这样实现的:
一种海量数据处理方法,该方法包括:
根据原始用户数据特征,对原始用户数据进行实时编码并同步输出;
对编码后的数据进行并行预处理,对预处理后的数据进行统计处理并同步输出;
按照不同的编码方式,分类存储统计处理后的数据。
所述对原始用户数据进行实时编码包括:对所述原始用户数据,按照预先根据原始用户数据特征设置的编码方式进行实时编码。
如果与所述原始用户数据对应的编码方式不存在编码信息,该方法之前还包括:对所述原始用户数据,按照预先根据原始用户数据特征设置的编码方式进行实时编码并输出编码管理数据。
如果与所述原始用户数据对应的编码方式不存在编码信息,采用预先设置的指定编码方式进行实时编码并输出编码管理数据。
所述对编码后的数据进行并行预处理之后,还包括:按照预先设置的存储结构,将预处理后的数据存入内存缓存中。
一种海量数据处理系统,包括数据编码单元、数据处理单元、数据汇总单元、数据存储单元和实时同步单元,其中,
数据编码单元,用于按照预先设置的编码方式对原始用户数据进行实时编码并同步输出给数据处理单元;
数据处理单元,用于对编码后的数据进行并行预处理,并同步输出给数据汇总单元;
数据汇总单元,用于对预处理后的数据进行统计处理并同步输出给数据存储单元;
数据存储单元,用于按照不同的编码方式,分类存储统计处理后的数据;
实时同步单元,用于向各单元发送保证各个单元产生的数据的同步输出的同步指示。
所述系统还包括编码管理单元,
当存在不能对原始用户数据进行编码时,所述数据编码单元,还用于向编码管理单元输出编码通知,并缓存编码后的数据;
所述编码管理单元,用于接收到来自数据编码单元的编码通知,按照预先设置的编码方式或指定编码方式对原始用户数据进行实时编码并同步输出给数据编码单元和数据处理单元。
所述编码管理单元包括两个或两个以上,形成热备方式。
所述系统还包括数据解码单元,用于对存储的数据或编码管理数据进行解码并输出。
所述数据编码单元为一组;
所述数据处理单元为数十个64位构架服务器,同时并行处理;
所述数据汇总单元为两个或两个以上;
所述数据存储单元可以包括两个或两个以上,形成备份存储。
从上述本发明提供的技术方案可以看出,包括根据原始用户数据特征,对原始用户数据进行实时编码并同步输出;对编码后的数据进行并行预处理,对预处理后的数据进行统计处理并同步输出;按照不同的编码方式,分类存储统计处理后的数据。本发明通过对原始用户数据进行编码处理,降低了存储成本,提高了后续、处理分析速度,大大节省了系统开销;而且,保证了分析处理系统可靠性,降低了内存资源和CPU开销,从而达到了实时分析的效果。
附图说明
图1为本发明海量数据处理方法的流程图;
图2为本发明海量数据处理系统的组成结构示意图。
具体实施方式
图1为本发明海量数据处理方法的流程图,如图1所示,包括以下步骤:
步骤100:根据原始用户数据特征,对原始用户数据进行实时编码并同步输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910092691.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:连接器
- 下一篇:具有反应和输送系统的器具