[发明专利]一种面向AWS平台的分布式数据管理方法在审
申请号: | 201410444864.2 | 申请日: | 2014-09-03 |
公开(公告)号: | CN104243564A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | 陆佳民;冯钧 | 申请(专利权)人: | 河海大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 aws 平台 分布式 数据管理 方法 | ||
技术领域
本发明涉及一种面向AWS平台的分布式数据管理方法,属于信息技术处理领域。
背景技术
AWS(Amazon Web Services 亚马逊网络服务系统)是由亚马逊公司于2002年开始运营的云计算平台,提供多种类型的远端Web服务。其中的EC2(Elastic Compute Cloud 弹性计算云)服务可以让用户以租用虚拟计算机(实例)方式,远程使用不同类型的计算机系统,并且运行任何自己所需要的软件。租用虚拟计算机的价格随提供的硬件资源多少而区分,并且用户可以随时创建、运行和终止服务,因此AWS EC2被视为一个灵活的、相对廉价的云计算平台。EBS(Elastic Block Storage 弹性块存储)服务亦是由AWS提供的,用于支持持久性数据块级存储需求。EBS卷组独立于EC2实例的生命周期,通过网络驱动伪装成块设备的方式使其能够成为任意实例的虚拟存储设备,并可在实例终止后继续存在,实现数据复用。AWS同时提供了S3(Simple Storage Service)服务来进行网络数据存储,但其更适用于静态的数据存储,S3设备可以转换为EBS卷组来进行使用。
由于受到AWS自身服务的限制,在利用申请大量EC2实例组建计算机集群时,实例内的EBS卷组资源在实例被暂停或终止后即被收回,相应地存储在EBS卷组内的数据也会同时丢失。
针对这一问题,常见的解决方法是待集群建立完毕后,再利用主实例进行数据的导入与分布。在这一过程中,其它实例因为没有参与到实际的数据处理过程当中,处于被动等待状态,因此造成了大量计算资源的浪费。
最后,当集群被终止后,产生的并行数据结果也需要再收集到额外的EBS或S3设备中去,同样造成了AWS资源的浪费。
因此,这种EC2实例内部EBS的不稳定性,造成了在大规模实例集群是进行数据分布与保存的技术难点。
目前,也没有公开发表的技术或手段来对此问题加以解决。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种面向AWS平台的分布式数据管理方法。首先采用集中式的数据划分与分配,利用一台EC2实例来完成所有的数据分布任务,降低了整体AWS资源的使用。其次通过并行配对挂载的方法,将大量实例资源与已分配数据的EBS卷组进行配对挂载,快速构建起可用的计算机集群。最后待处理任务结束后,统一卸载外部挂载的EBS卷组,达到了计算资源与存储设备的分离,在不消耗额外计算与存储资源的前提下实现了数据复用的目的。
技术方案:一种面向AWS平台的分布式数据管理方法,包括如下步骤:
步骤1,创建单台实例并挂载大量小容量EBS卷组,实现大数据的划分与分配,具体方法为:
步骤1-1,依据卷组标签扫描所需EBS卷组ID,采用循环模式分配存储设备名称,在实例外部利用EC2命令行工具进行挂载后向实例提交所有设备名;
步骤1-2,实例内部创建所有挂载文件路径并赋予相应权限,与接收到的存储设备进行系统级别挂载;
步骤1-3,利用用户自定义方法对集群数据进行划分,并对应转移到相应的小容量存储设备中去;
步骤2,创建全部集群实例,与得到数据分配后的EBS卷组进行并行匹配挂载;
步骤2-1,依据资源标签扫描可用的EBS卷组与集群实例ID,利用循环模式进行配对挂载后,对每一实例上传分配的存储设备名;
步骤2-2,并行访问所有实例,创建挂载文件路径并赋予读写权限,在系统级别挂载设备;
步骤3,待计算任务结束后,对存储服务与计算服务进行分离,卸载所有EBS卷组并终止集群实例,将并行数据结果单独存留在EBS卷组中。
以上发明内容中所述的EC2命令行工具是指由AWS EC2服务提供的,通过文本命令方式来运行服务的脚本;所述EBS卷组是指由AWS提供的,具有独立生命周期的网络存储设备,可以与EC2实例通过网络驱动的方式的连接,来提供持久性的数据块级存储。每个EBS卷组与EC2实例,都具有惟一的ID编号,并可通过添加标签的方式来进行语义上的区分。
本发明采用上述技术方案,具有以下有益效果:
1、方法在集群建立之前就可利用一台EC2实例来完成所有的数据分布任务,显著降低了整体AWS的资源消耗;
2、待集群创建后,方法采用并行配对挂载的方法,可将所需数据快速分布到整个集群系统内,提高了数据分布准备的效率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410444864.2/2.html,转载请声明来源钻瓜专利网。