[发明专利]一种基于BFD-VNS算法的低成本Spark执行器放置方法在审
申请号: | 202111382902.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114064281A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 李鸿健;王磊;段小林;邹洋;熊安萍 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bfd vns 算法 低成本 spark 执行 放置 方法 | ||
本发明属于大数据处理领域,具体涉及一种基于BFD‑VNS算法的低成本Spark执行器放置方法,包括构建集群环境下Spark作业的成本模型,以最小化Spark集群使用成本建立目标函数;采用降序最佳适应算法求出Spark执行器放置的可行解;将获得的可行解作为初始解,采用变邻域搜索算法进行深度优化,以求得最优的Spark执行器放置;根据求得的最优执行器放置进行执行器放置;本发明降低了整个集群的使用成本,改善了Spark原生放置策略存在的问题。
技术领域
本发明属于大数据处理领域,具体涉及一种基于BFD-VNS算法的低成本Spark执行器放置方法。
背景技术
在互联网飞速发展的当下,各个国家乃至世界的数据量都在呈指数级增长。据统计,2010年,我国数据的全球占比就已经突破10%,预计到2025年,我国数据总量将跃居世界第一,全球占比有望达到27%以上,中国正朝着真正的数据资源大国奋进。各大企业机构、各个业务领域每分每秒都会产生海量的数据,随之而来的便是大量的数据分析需求,因此,快速有效的数据分析处理显得至关重要,而这离不开日益成熟的数据处理框架。
当前,Spark已成为主流的数据处理框架,数据的处理离不开计算资源的支撑。正是因为计算资源在数据处理过程中有着举足轻重的地位,所以合理有效地利用计算资源,提高资源利用率是至关重要的,同样对数据处理过程中资源的使用成本进行优化也是有意义的。
虽然目前已有诸多研究是关于成本优化的,但少有研究是从执行器的放置策略着手深入的。此外,在实际生产中,Spark原生的执行器放置策略也存在着高成本、低资源利用率的问题,因此,通过调整执行器的放置策略来对集群的资源使用成本进行优化是一个亟待解决的问题。
发明内容
为解决上述问题,本发明提出一种基于BFD-VNS算法的低成本Spark执行器放置方法,
S1:构建集群环境下Spark作业的成本模型,以最小化Spark集群使用成本建立目标函数;
S2:采用降序最佳适应算法求出Spark执行器放置的可行解;
S3:将获得的可行解作为初始解,采用变邻域搜索算法进行深度优化,以求得最优的Spark执行器放置;
S4:根据求得的最优执行器放置进行执行器放置。
进一步的,以最小化Spark集群使用成本建立目标函数包括:
约束条件:
其中,Fk表示使用一个类型为k的虚拟节点所需的固定成本,η表示Spark集群中所有虚拟节点的类型构成的集合,δk表示所有类型为k的虚拟节点构成的集合;mjk为表示第j个类型为k的虚拟节点是否被使用的二进制决策变量,是则取值1,否则取值0;nijk为表示执行器i是否被放置在第j个类型为k的虚拟节点上,是则取值1,否则取值0;表示运行当前Spark作业所需的执行器集合;μcpu表示当前Spark作业的某一执行器的CPU资源需求,表示第j个类型为k的虚拟节点的可用CPU资源;μmem表示当前Spark作业的某一执行器的内存资源需求,表示第j个类型为k的虚拟节点的可用内存资源。
进一步的,采用降序最佳适应算法求出Spark执行器放置的可行解包括以下步骤:
101、将集群中所有虚拟节点按照资源可用性大小进行升序排列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111382902.2/2.html,转载请声明来源钻瓜专利网。