[发明专利]用于处理大数据的方法和装置在审
申请号: | 201611219972.5 | 申请日: | 2016-12-26 |
公开(公告)号: | CN108241683A | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 李嘉陵 | 申请(专利权)人: | 华为技术服务有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 孙涛;毛威 |
地址: | 065000 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 方法和装置 第一数据 数据存储位置 存储数据 离线处理 实时处理 获取源 流数据 源数据 维度 聚合 工作量 创建 统一 | ||
本发明实施例提供了一种用于处理大数据的方法和装置。该方法包括:获取源数据;根据所述源数据创建大数据模型的第一数据分片,其中,所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。本发明实施例的用于处理大数据的方法和装置,能够统一进行批量离线处理和流数据实时处理,降低编码工作量。
技术领域
本发明实施例涉及数据处理领域,并且更具体地,涉及用于处理大数据的方法和装置。
背景技术
大数据是指一般数据库无法处理的海量数据,对于这类海量数据一般包含两种处理方法:批量离线处理、流数据实时处理。其中,批量离线处理是指:数据积累到一定时间,比如一天或一个星期,批量的计算这批数据以获得想要的结果;流数据实时处理是指:每时每刻都在产生新的数据,需要很快速的立即计算出想要的结果。
目前,对于批量处理和流数据实时处理采用两套处理机制,无法拉通实现,并且相应的编码工作量也比较大。因此,尚无可以统一进行批量离线处理和流数据实时处理的处理机制。
发明内容
本发明实施例提供一种用于处理大数据的方法和装置,能够统一进行批量离线处理和流数据实时处理,降低编码工作量。
第一方面,提供了一种用于处理大数据的方法,包括:
获取源数据;
根据所述源数据创建大数据模型的第一数据分片,其中,所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。
在本发明实施例中,系统在获取源数据后,可以根据所述源数据创建第一数据分片,以便于后续处理源数据,能够统一进行批量离线处理和流数据实时处理,降低编码工作量。
在本发明实施例中,第一数据分片还可以包括数据字段或字段类型,或其他存储信息,对此不作限定。
可选地,源数据可以是通过系统中的采集模块采集入库的,以便于系统根据采集的源数据创建数据分片。可选地,所述源数据可以是原始数据。
可选地,所述第一数据分片可以是比较细小的粒度(或可以理解为大数据模型的最基础的维度或粒度),后续可以根据该第一数据分片获得更大维度或粒度的数据分片,以便于减少需要查询或处理的数据量(原因在于维度或粒度越大,相应地数据量会减少)。可选地,所述大数据模型包括至少一个数据分片。其中,所述第一数据分片可以用于描述数据的存储信息,包括数据的存储地点、存储内容等。可选地,比如,所述数据的存储信息包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。可选地,所述大数据模型可以用于描述字段内容、存储结构等。
在一些可能的实现方式中,所述方法还包括:
持续监听多个所述第一数据分片;
在多个所述第一数据分片满足所述大数据模型的第二数据分片的分片条件时,对多个所述第一数据分片进行批量处理。
这里,系统可以对多个所述第一数据分片进行持续监听。如果多个所述第一数据分片满足第二数据分片的分片条件,则系统可以启动批量处理程序,对多个所述第一数据分片进行批量处理。这里,具体可以在Spark系统中进行批量处理。
在一些可能的实现方式中,对多个所述第一数据分片进行批量处理,包括:
汇聚多个所述第一数据分片,得到所述第二数据分片,其中,所述第二数据分片是所述大数据模型的数据分片,所述第一数据分片的分片条件与所述第二数据分片的分片条件不同。
应理解,所述大数据模型可以包括至少一个数据分片,上面只是以第一数据分片和第二数据分片为例进行说明,比如,系统可以继续对多个第二数据分片进行处理,得到第三数据分片等,本发明对此不作限定。
在一些可能的实现方式中,所述方法还可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术服务有限公司,未经华为技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611219972.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:确定文本情感的方法及装置
- 下一篇:一种数据更新方法和集群系统