[发明专利]确定用于分布式基于批的优化应用的最佳计算资源在审
申请号: | 202010724291.4 | 申请日: | 2020-07-24 |
公开(公告)号: | CN112306671A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | V·萨克斯纳;S·巴苏;J·K·拉德哈克瑞什那;Y·萨芭哈尔瓦尔;A·维尔马 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 鲍进 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 用于 分布式 基于 优化 应用 最佳 计算 资源 | ||
1.一种计算机实现的方法,包括:
获得(i)模型的大小和(ii)与要使用分布式计算系统处理的作业对应的输入数据集的批大小集合,其中所述分布式计算系统包括多个节点;
至少部分地基于批大小集合,计算与能用于处理所述作业的节点数量对应的一个或多个节点计数;
对于所述节点计数中的每一个给定节点计数,估计使用与给定节点计数对应的节点数量来处理作业的执行时间,其中所述估计包括确定(i)一批所述输入数据集的平均计算时间,以及(ii)用于所述一批所述输入数据集的平均通信时间,其中平均通信时间至少部分地基于模型的大小和与给定节点计数对应的节点数量;和
至少部分地基于所述估计,选择所述节点计数中的至少一个来处理作业;
其中所述方法由至少一个计算设备执行。
2.如权利要求1所述的计算机实现的方法,其中所述估计包括使用与给定节点计数对应的节点数量来估计处理作业的成本。
3.如权利要求2所述的计算机实现的方法,其中所述估计成本至少部分地基于与使用所述节点和所估计的执行时间相关联的定价信息。
4.如权利要求1所述的计算机实现的方法,包括:
使信息被输出到用户界面,所述信息包括为所选择的节点计数中的每一个所估计的执行时间,以及
响应于使所述信息被输出,使所述作业基于经由用户界面接收的用户输入利用所述所选择的节点计数之一进行处理。
5.如权利要求1所述的计算机实现的方法,其中所述选择至少部分地基于用户提供的一个或多个约束,其中所述一个或多个约束包括(i)成本约束和(ii)时间约束中的至少一个。
6.如权利要求5所述的计算机实现的方法,其中所述选择包括为一个或多个用户约束选择最佳节点计数。
7.如权利要求6所述的计算机实现的方法,包括:
使作业利用最佳节点计数进行处理。
8.如权利要求1所述的计算机实现的方法,其中所述确定用于所述一批所述输入数据集的所述平均计算时间包括:
确定使用节点中的单个节点处理一批或多批输入数据集的时间量。
9.如权利要求1所述的计算机实现的方法,其中所述确定平均通信时间包括:
基于一个或多个通信定时测量,获得每个所述节点计数的汇聚通信定时信息。
10.如权利要求9所述的计算机实现的方法,其中所述获得所述汇聚通信定时信息包括针对不同节点数量和等于模型大小的缓冲区大小调用Allreduce函数。
11.如权利要求9所述的计算机实现的方法,其中所述确定所述平均通信时间包括:
对节点计数中的第一节点计数和节点计数中的第二节点计数的汇聚通信定时信息进行插值,以确定节点计数中的至少第三节点计数的汇聚通信定时信息。
12.如权利要求1所述的计算机实施的方法,其中作业包括以下项中的至少一个:
用于训练神经网络的深度学习作业;
高阶奇异值分解作业;和
储层表征中的历史匹配作业。
13.如权利要求1所述的计算机实现的方法,其中所述获得包括获得每个节点的批大小,并且其中所述计算一个或多个节点计数至少部分地基于每个节点的所述批大小。
14.一种计算机程序产品,包括其上实现有程序指令的计算机可读存储介质,所述程序指令能由计算设备执行以使所述计算设备执行如权利要求1至13中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010724291.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体封装结构及其制造方法
- 下一篇:电子构件和用于制造电子构件的方法