[发明专利]数据处理方法和数据处理系统在审
申请号: | 201911067661.5 | 申请日: | 2019-11-04 |
公开(公告)号: | CN112764893A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 吴一迪;郑尚策;苑晗;向甜 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴磊 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 数据处理系统 | ||
本申请实施例公开了一种数据处理方法,可以提高集群运行效率。应用于包括管理节点和计算节点的数据处理系统,数据处理系统中运行第一作业,运行第一作业的计算节点集合包括至少一个计算节点,至少一个计算节点中包括主计算节点,方法包括:管理节点根据数据处理系统中的空闲计算节点数量和/或等待状态的作业数量确定集群资源状态为紧张状态,等待状态的作业数量大于或等于第一阈值和/或空闲计算节点数量小于第二阈值;管理节点根据集群资源状态确定降低第一作业的并行度的删减策略,删减策略用于指示从计算节点集合删减目标计算节点;管理节点根据删减策略向主计算节点发送删减指令,以使得目标计算节点停止运行第一作业。
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,具体涉及一种数据处理方法、管理节点、计算节点和数据处理系统。
背景技术
深度学习目前广泛应用于计算机视觉、自然语言处理和推荐搜索等领域。深度学习模型的训练工作是资源密集型且耗时的,由此,许多组织构建了用于深度学习的集群系统,用于为多个用户提供服务。
深度学习系统包括至少一个管理节点和多个计算节点,用户向深度学习系统提交作业,并指定作业的并行度,即运行该作业所需的计算节点数量,深度学习系统中的管理节点根据用户指定的并行度为作业分配计算资源。
由于深度学习模型参数较多且结构复杂,不同作业训练时对计算节点的存储资源利用率不同。用户根据经验为作业直接指定的并行度可能不合理,例如,深度学习系统资源紧张时,为一个作业申请的计算节点数量偏多,运行该作业的计算节点利用率较低因此深度学习系统效率低。
发明内容
本申请实施例第一方面提供了一种数据处理系统,所述数据处理系统包括管理节点和运行第一作业的计算节点集合,所述计算节点集合包括主计算节点和第一计算节点,所述管理节点,用于根据所述数据处理系统中的空闲计算节点数量和/或等待状态的作业数量确定集群资源状态为紧张状态,所述等待状态的作业数量大于或等于第一阈值和/或所述空闲计算节点数量小于第二阈值;所述管理节点,还用于根据所述集群资源状态确定降低所述第一作业的并行度的删减策略,并向所述主计算节点发送所述删减策略,所述删减策略用于指示所述第一计算节点停止运行所述第一作业,所述第一作业的并行度为运行所述第一作业的计算节点集合中计算节点的数量;所述主计算节点,用于接收所述删减策略,并根据所述删减策略向所述第一计算节点发送删减指令;还用于根据所述删减策略将所述第一作业的原拓扑结构更新为新拓扑结构,并根据所述新拓扑结构继续运行所述第一作业;所述第一作业的原拓扑结构用于指示所述计算节点集合中所有计算节点的逻辑连接关系,所述第一作业的新拓扑结构用于指示更新后的所述计算节点集合中所有计算节点的逻辑连接关系;所述第一计算节点,用于接收所述删减指令,并根据所述删减指令,停止运行所述第一作业。第一节点为集合中出主节点外的节点中的任一个。
本申请实施例提供的数据处理系统,在集群资源状态紧张时,可以删减运行作业的计算节点,被删减的计算节点可以用于运行等待的作业,可以降低作业的等待时长,提高集群的运行效率。
在第一方面的一种可能的实现方式中,所述计算节点集合还包括未被删减的第二计算节点;所述第二计算节点,用于接收所述主计算节点发送的所述新拓扑结构,并根据所述新拓扑结构继续运行所述第一作业。
在第一方面的一种可能的实现方式中,所述管理节点还用于,获取所述第一作业的评价模型,所述评价模型用于表示所述第一作业的并行度与运行所述第一作业的计算节点的存储资源利用率的对应关系,以及,所述第一作业的并行度与所述第一作业的吞吐量的对应关系;所述管理节点还用于,根据所述评价模型确定所述第一作业的可用并行度范围,所述可用并行度范围的最小值根据所述计算节点的存储资源利用率确定,所述可用并行度范围的最大值根据所述第一作业的吞吐量的峰值确定,所述第一作业降低并行度后的新第一并行度属于所述可用并行度范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911067661.5/2.html,转载请声明来源钻瓜专利网。