[发明专利]一种用于处理地理分布式数据的跨集群计算系统有效
申请号: | 201910360062.6 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110308984B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 沃天宇;李振平;杨任宇;罗彦林 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 处理 地理 分布式 数据 集群 计算 系统 | ||
1.一种用于处理地理分布式数据的跨集群计算的系统,其特征在于,其包括有三层的集群管理框架,包括全局主节点---集群主节点---从节点,全局主节点负责管理所有的集群主节点,每个集群主节点则负责管理集群内部的从节点,使用应用提交客户端向全局主节点提交应用程序时,全局主节点会选择一个其管理的集群主节点启动全局驱动器,所述全局驱动器启动成功后向全局主节点注册全局应用描述,全局主节点根据全局应用描述在各个集群主节点启动集群驱动器,集群驱动器启动成功后,向集群主节点注册集群应用描述,集群主节点再根据集群应用描述在各个从节点启动执行器,启动成功后,由全局驱动器开始任务分发和数据交换完成一个应用的执行;所述系统使用三层架构的任务分发机制,所述任务分发机制为一次性将任务打包分发到集群驱动器,再由集群驱动器根据集群的资源空闲情况,将任务逐个分发给执行器去执行;所述系统在进行集群间数据混洗操作前,先在集群内进行分区数据聚合,而不执行map部分,所述数据聚合方式为执行的是任务的reduce部分,所述集群间数据的混洗操作是指集群中的某个节点从其余集群的所有节点以及当前集群的其他节点拉取部分数据的过程。
2.如权利要求1所述的系统,其特征在于,所述系统使用任务调度算法,所述任务调度算法基于全局数据分布、带宽分布和计算资源分布决定在具体的集群执行任务;所述系统使用任务调度算法具体为,对于集群A、B、C…,任务在集群A上执行,从集群B上拉取数据,所述拉取数据到处理完数据的时间消耗如下:
costAB=costtAB+costcAB
costAB为分布在集群B上的数据从传输到处理整个过程所花的时间,包含两部分:costtAB为数据从集群B到A的网络传输时间,costcAB为数据在集群A上的处理时间;
网络传输时间costtAB包括集群B到A的网络延迟latencyAB和数据传输时间其中dataSizeB为数据在集群B上的分布大小,
bandwidthAB为集群B到A的带宽;
数据在集群A的处理时间由数据大小dataSizeB和计算资源M(cpu,mem)A来表示,M(cpu,mem)A为计算CPU核和内存容量资源的量化函数,costtAB当任务在集群A上执行时,分布在其余集群的全部数据的传输处理总时间为其中i为集群标识,可取B,C,…,
传输时间取其中的最大值,对此任务计算出其在每个集群的时间成本,其中时间消耗最小的即为最佳的执行位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910360062.6/1.html,转载请声明来源钻瓜专利网。