[发明专利]一种混合云环境面向时延优化的科学工作流数据布局方法有效
申请号: | 201810700970.0 | 申请日: | 2018-08-24 |
公开(公告)号: | CN108989098B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 林兵;项滔;卢宇;黄志高;陈星;郭文忠;蔡飞雄 | 申请(专利权)人: | 福建师范大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06N3/12 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 环境 面向 优化 科学 工作流 数据 布局 方法 | ||
本发明公开一种混合云环境面向时延优化的科学工作流数据布局方法,考虑混合云环境下数据布局特点,结合科学工作流数据间的依赖关系,考虑云数据中心间的带宽、私有云数据中心个数和容量等因素对传输时延的影响;首先对其进行预处理操作,提高后期数据布局策略的执行效率;通过引入遗传算法的交叉算子和变异算子,避免粒子群优化算法的过早收敛问题,提高种群进化的多样性,有效压缩数据传输时延,有效降低混合云环境下的科学工作流数据传输时延。本发明提高数据布局策略的执行效率,优化科学工作流数据布局传输时延。
技术领域
本发明涉及并行和分布式高性能计算领域的科学工作流数据布局方法,尤其涉及一种混合云环境面向时延优化的科学工作流数据布局方法。
背景技术
科学工作流系统是一种数据密集型应用,已被广泛应用于天文、高能物理和生物信息等科学研究领域。科学工作流应用基于数据驱动,其计算任务节点之间存在复杂的数据依赖,且处理的数据集大小通常可达TB甚至PB量级。这些数据集包括已存在的原始输入数据集,以及处理分析过程中产生的中间数据集和最终数据集。由于科学工作流应用结构依赖复杂、数据量大等性质,其对部署环境的计算能力和数据存储方面有严格要求。网格等传统分布式环境,通常为某个具体科学应用研究而建设,它们之间的共享程度低,科学工作流部署在这样的环境中会造成严重的资源浪费。
云计算通过虚拟化技术将不同地理位置的资源虚拟成资源池,以即付即用的方式面向终端用户,其高效、灵活、高伸缩性、可定制的特点为科学工作流部署提供了一种经济解决方案。混合云计算环境通常包括一个公有云和多个私有云:公有云可以在科学工作流负载波动剧烈情况下保证资源供应,维护服务质量;私有云则可以为科学工作流隐私数据的安全性提供保障。随着大数据在科学应用领域重要性的增大,混合云环境下的科学工作流数据布局已成为科学研究领域的热点。在应急管理应用领域,存在大量并发的实例,对科学工作流数据布局的时延要求严格。然而,科学工作流隐私数据的固定数据中心存放,导致应用执行过程中需要进行大量跨数据中心的数据传输,TB甚至PB量级的数据集传输和数据中心之间的有限网络带宽形成巨大矛盾,造成传输时延严重。因此,研究混合云环境下合理的科学工作流数据布局方案,显得至关重要,具体体现为:(1)科学工作流应用结构依赖复杂、数据量大,混合云多数据中心环境下,合理的数据布局方案应保证单数据中心内部高内聚,数据中心之间低耦合,降低跨数据中心的数据传输时间开销。(2)出于安全性考虑,隐私数据被指定存放在特定私有云数据中心,由于私有云数据中心的容量有限,需要进行跨数据中心传输,如何在传输带宽有限和隐私数据固定存放限制下,考虑带宽因素的影响,优化数据传输时延,是科学工作流数据布局的一个挑战。(3)有效的数据布局方案,应在压缩数据传输时延前提下,兼顾数据中心资源的有效利用。
现有科学工作流数据布局工作主要基于聚类方法和智能方法。聚类方法主要考虑多个数据中心的负载均衡数据布局,有效利用数据中心资源。然而在混合云环境下,存在隐私数据的科学工作流需要一种单数据中心内部高内聚、数据中心之间低耦合的数据布局方式才能有效保障数据传输的低延时。传统基于负载均衡的聚类方法无法满足混合云环境下科学工作流的低延时数据布局要求。传统智能方法主要是基于遗传算法的数据布局策略,这些方法主要考虑负载均衡问题,且易陷入局部最优。现有研究方法主要针对优化数据布局过程中的跨数据中心传输次数和数据传输量展开,对数据传输时延的压缩研究较少,另外,传统研究方法尚未对数据中心之间的传输带宽差异进行充分讨论。因此,针对混合云环境下面向时延优化的科学工作流数据布局问题,目前研究工作尚未形成一个完整有效的解决方案。
发明内容
本发明的目的在于提供一种混合云环境面向时延优化的科学工作流数据布局方法。
本发明采用的技术方案是:
一种混合云环境面向时延优化的科学工作流数据布局方法,其包括以下步骤:
步骤1:基于混合云环境下科学工作流构建数据布局方案模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810700970.0/2.html,转载请声明来源钻瓜专利网。