[发明专利]一种考虑数据迁移效率的大数据存储管理系统在审
申请号: | 201711488543.2 | 申请日: | 2017-12-30 |
公开(公告)号: | CN109992199A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 祁建明;周峻松;徐继峰;陈墩金 | 申请(专利权)人: | 广州明领基因科技有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510610 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据迁移 作业调度 存储管理系统 迁移目标 数据源层 大数据 作业数据 迁移 | ||
本发明公开了一种考虑数据迁移效率的大数据存储管理系统,该系统包括:数据源层、作业调度层以及迁移目标层;其中,所述数据源层用于为所述作业调度层提供作业数据;所述作业调度层负责根据需求完成数据的迁移,将数据迁移至所述迁移目标层。
技术领域
本发明属于大数据存储管理技术领域,涉及一种考虑数据迁移效率的大数据存储管理系统。
背景技术
海量数据分析往往依赖于分布式环境,然而由于业务数据类型各异,数据迁移汇总将是首要任务,能否高效、稳定地将源数据迁移到目标存储系统很大程度上决定了数据的分析效率。
面向分布式存储的数据迁移技术主要解决数据在存储系统之间或同一存储系统的不同实例之间的迁移问题:系统之间的迁移重点考虑数据的存储格式、传输路径、网络状况等因素;实例之间的迁移重点考虑存储系统的存储形式、接口性能等一系列因素。
目前存在的大部分数据迁移技术仅考虑了集群单方面的均衡,而忽略了集群间迁移作业的负载均衡性,这同样会降低大数据迁移的效率。
发明内容
本发明目的在于提供一种考虑数据迁移效率的大数据存储管理系统,针对分布式存储系统间数据迁移时的负载均衡问题,构建了数据迁移模型,采用三层系统结构,在作业调度层利用Astraea近似求解算法,通过调控迁移任务的执行顺序使得包含同一数据源的作业尽可能避免在同一时间执行,有效地避免了迁移时的数据访问热点问题,从而提高了迁移任务的并行性,实现了迁移效率的改善。
为解决上述技术问题,本发明采用如下的技术方案:一种考虑数据迁移效率的大数据存储管理系统,该系统包括:数据源层、作业调度层以及迁移目标层;其中,所述数据源层用于为所述作业调度层提供作业数据;所述作业调度层负责根据需求完成数据的迁移,将数据迁移至所述迁移目标层。
进一步地,所述迁移目标层使用分布式文件存储系统将目标集群虚拟为一个整体存储系统。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对分布式存储系统间数据迁移时的负载均衡问题,构建了数据迁移模型,采用三层系统结构,在作业调度层利用Astraea近似求解算法,通过调控迁移任务的执行顺序使得包含同一数据源的作业尽可能避免在同一时间执行,尽量错开了迁移时的数据访问热点问题,提高了迁移任务的并行性,改善了迁移效率。
附图说明
图1是本系统的整体框架图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种考虑数据迁移效率的大数据存储管理系统,该系统包括:数据源层、作业调度层以及迁移目标层;其中,所述数据源层将不同类型的数据源水平扩展成分布式数据源;所述作业调度层使用MapReduce框架作为分布式程序的基础,使用YARM精确控制数据迁移使用的资源;所述迁移目标层使用分布式文件存储系统将目标集群虚拟为一个整体存储系统。
本发明的设计基础是基于下面给出的数据迁移模型以及对性能影响因素的分析。
1、数据迁移模型
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州明领基因科技有限公司,未经广州明领基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711488543.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:神经网络的数据传输方法及相关产品
- 下一篇:一种使信息存储占用空间最小的方法