[发明专利]用于训练深度学习模型的方法和制品、以及计算系统有效
申请号: | 201810878224.0 | 申请日: | 2018-08-03 |
公开(公告)号: | CN110795228B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 崔嵬;李三平;王鲲 | 申请(专利权)人: | 伊姆西IP控股有限责任公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/455;G06F15/163 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;丁君军 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 深度 学习 模型 方法 制品 以及 计算 系统 | ||
本公开涉及用于训练深度学习模型的方法和制品、以及计算系统。提供了用于实现自适应批量数据集划分控制过程的系统和方法,该过程与分布式深度学习模型训练过程被结合使用以优化加速器资源集之间的负载平衡。迭代批量大小调整过程被配置为确定用于将小批量数据集划分成子批量数据集的最优作业划分比率,以用于由混合加速器资源集进行处理,其中子批量数据集被划分成最优批量大小,以用于由相应的加速器资源进行处理,以最小化用于完成深度学习模型训练过程的时间。
技术领域
本公开总体上涉及用于在高性能计算环境中加速数据处理的技术。
背景技术
各种类型的专用处理器(诸如用于通用计算的图形处理单元(GPU)和其他类型的硬件加速器)已经被开发,以用于加速处理特定类型的工作负载。GPU设备和其他类型的硬件加速器的处理能力目前正被使用在各种应用中,以加速各种技术领域中高度并行化的计算工作负载的处理。特别地,GPU上的通用计算(GPGPU)被用于计算内核的高吞吐量、加速处理,以用于表现出数据并行性的工作负载(例如,基于矢量的计算、基于矩阵的计算等)。例如,GPU用于加速高性能计算(HPC)和嵌入式计算系统中的数据处理,用于各种应用,诸如金融建模、科学研究、机器学习(ML)、深度学习(DL)、数据挖掘、视频数据转码、图像分析、图像识别、病毒模式匹配、增强现实、加密/解密、天气预报、大数据分析和比较、以及具有固有并行性质的计算工作负载的其他应用。
在计算节点集群上包括大规模共享计算资源的分布式计算环境通常被用来支持新兴应用,诸如大数据分析和DL应用。例如,DL应用需要收集、存储和处理非常大量的数据,其中数据包括用于构建和优化深度学习模型的训练数据,以及被用于推理处理的深度学习模型的模型参数。目前,存在各种服务提供商,其在基于云的系统上提供基础架构即服务(IaaS)、平台即服务(PaaS)和/或GPU即服务(GPUaaS),这允许客户使用各种基于云的资源(诸如GPU和其他加速器资源)执行各种应用,如深度学习应用。
由于GPU和加速器技术的持续进步,许多服务提供商具有共存于在其基于云的基础架构中的多代加速器设备(例如,GPU),导致具有不同性能水平的混合加速器资源集。虽然诸如DL模型训练的分布式计算应用可以使用混合加速器资源集(例如,包括不同类型的GPU设备的GPU资源集)来实现,但是用于执行给定任务而提供和使用混合资源可能是有问题的。例如,分布式DL模型训练通常通过在GPU资源集之间均匀地划分作业(例如,划分训练数据集)来执行以用于数据并行处理。然而,当GPU资源集包括具有不同性能(例如,处理速度)的GPU设备时,性能较低的GPU资源将在数据并行处理中造成瓶颈,并且实质上减慢了训练过程,这导致无效率的资源使用。
发明内容
本发明的说明性实施例包括自适应批量数据集划分控制方法,其被实现为分布式深度学习模型训练过程的一部分,以优化加速器资源集之间的负载平衡。例如,一种方法包括在计算系统的一个或多个服务器节点上提供多个加速器资源以执行分布式深度学习模型训练过程以训练深度学习模型。训练数据集被划分成多个小批量数据集。根据初始默认作业划分比率,初始小批量数据集被划分成多个子批量数据集。通过每个加速器资源处理初始小批量数据集的对应的一个子批量数据集来执行分布式深度学习模型训练过程的初始小批量迭代。迭代批量大小调整过程被执行以迭代地调整作业划分比率,以用于分布式深度学习模型训练过程的后续小批量迭代。迭代批量大小调整过程包括:确定针对每个加速器资源的作业完成时间,以完成初始小批量数据集的对应的一个子批量数据集的处理;确定由于初始小批量迭代的初始默认作业划分比率导致的加速器资源的作业完成时间的标准偏差;将所确定的标准偏差与预定的标准偏差阈值进行比较;以及响应于所确定的作业完成时间的标准偏差超过预定的标准偏差阈值,调整作业划分比率以用于将下一小批量数据集划分成多个子批量数据集,以用于分布式深度学习模型训练过程的下一小批量迭代。
本发明的其他实施例包括但不限于包括处理器可读存储介质的系统和制品,它们被配置为实现作为分布式深度学习模型训练过程的一部分的自适应批量数据集划分控制方法,以优化加速器资源集之间的负载平衡。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊姆西IP控股有限责任公司,未经伊姆西IP控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810878224.0/2.html,转载请声明来源钻瓜专利网。