[发明专利]用于海量数据管理的数据处理方法和系统有效

专利信息
申请号: 201110217035.7 申请日: 2011-07-29
公开(公告)号: CN102332004A 公开(公告)日: 2012-01-25
发明(设计)人: 吴广君;王树鹏;云晓春;张永铮;王明华 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;梁挥
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 海量 数据管理 数据处理 方法 系统
【说明书】:

技术领域

发明针对海量数据管理过程中加载与检索效率低下的问题,提出并发加载和多层次并发检索的方法和线性扩容的系统,尤其涉及一种线性扩容的分布式并发加载、检索方法和系统。

背景技术

据市场调查公司IDC统计,到2011年全球数据量预计达到35.2ZB(1ZB=1021B)。典型的应用包括:海量日志的分析、挖掘;网络报文的实时存储与分析;Web2.0下的在线游戏、SNS网络等。传统关系型数据库由于一致性的约束,在数据量达到TB量级时,加载效率和检索效率会明显下降;典型的分布式No-SQL数据库,如Yahoo!的PNUTS,Amazon的Dynamo,Facebook的Cassandra以及Hbase,Hypertable等由于没有为数据源建立索引的机制,仅支持字符串数据类型,导致系统仅提供基于关键字或者时间戳的数据管理,无法执行复杂的统计、分析操作。

目前海量数据管理中大部分的应用可以通过二维表结构数据管理模型实现数据的管理与分析操作;同时对于数据加载过程中多条记录之间的一致性需求较弱。基于上述分析,本发明设计并实现具有海量数据管理功能的数据处理方法和系统,通过分布式的数据处理方法和系统为用户提供二维表空间的数据管理模型(行为记录,列为属性),每条记录内部支持多种属性数据检索,多条记录之间可以联合执行复杂的统计、分析操作。通过元数据管理装置,集中管理海量数据的元数据和分布存储的数据块与数据存储装置的映射关系,支持数据的并发加载与数据管理装置的线性扩容。

发明内容

为解决上述技术问题,本发明提出一种用于海量数据管理的数据处理方法和系统,提高了海量数据的处理效率,降低了针对海量数据处理的复杂性,从而实现提高海量数据检索与挖掘的效率。

本发明公开了一种用于海量数据管理的数据处理方法,其特征在于,包括:

A,设置多个数据加载装置的步骤,通过二维表结构管理不同类型的字段创建不同类型的索引,并以并发方式向通过网络连接的至少一个数据存储服务器加载索引数据源,实现数据加载与维护操作;

B,设置元数据管理装置的步骤,用于记录由所述数据加载装置生成的索引分片的分布信息,记录并更新所述数据存储服务器的状态信息,以及记录所述索引分片与所述数据存储服务器的对应关系;

C,在所述数据存储服务器上设置数据管理服务装置的步骤,用于存储、管理所述索引分片,并根据检索命令并发检索索引分片,并向所述元数据管理装置报告工作状态。

还包括:设置多个数据检索装置的步骤,用于实现多机协同、多层次、不同粒度的数据并发检索。

还包括:所述索引分片由所述数据加载装置独立生成,构成进行调度、负载均衡和并发检索的基本单元。

还包括:所述索引分片之间根据时间顺序排序;所述索引分片内部根据字典序排序。

所述数据检索装置至少设置二层次数据过滤机制,和/或二个层次数据汇总机制。

所述二个层次数据过滤机制,包括:第一级过滤机制是根据检索命令,通过所述元数据管理装置过滤特定的数据存储服务器列表,并发地向过滤后的检索服务器发送检索命令;第二级过滤机制是所述数据存储服务器根据检索命令,过滤本地索引分片,符合条件的索引分片并发的执行检索操作。

所述二个层次数据汇总机制,包括:所述数据存储服务器汇总多个索引分片的并发检索后结果;所述数据检索装置汇总多个所述数据存储服务器返回的初次汇总结果。

本发明还公开了一种用于海量数据管理的数据处理系统,包括:多个数据加载装置通过二维表结构,为不同类型的字段创建不同类型的索引,并通过网络连接的至少一个数据存储服务器加载索引数据源,实现数据加载与维护操作;元数据管理装置,用于记录由所述数据加载装置生成的索引分片的分布信息,记录并更新所述数据存储服务器的状态信息,以及记录所述索引分片与所述数据存储服务器的对应关系;数据存储服务器,还包括数据管理服务装置,用于存储、管理所述索引分片,并根据检索命令并发检索索引分片,并向所述元数据管理装置报告工作状态。

还包括:多个数据检索装置,用于实现多机协同、多层次、不同粒度的数据并发检索。当有新的数据存储服务器加入时,所述数据管理服务装置向所述元数据管理装置报告状态变更信息,所述元数据管理装置把新的数据存储服务器加入到可用服务器列表中,并开始接下来的存储调度和定期心跳机制检查中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110217035.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top