[发明专利]一种基于网络重配置的分布式机器学习系统加速方法在审
申请号: | 202010587173.3 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111767146A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 裘翼滔;蒋从锋;欧东阳;闫龙川;殷昱煜;张纪林;黄震;赵子岩;李妍 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 配置 分布式 机器 学习 系统 加速 方法 | ||
本发明涉及一种基于网络重配置的分布式机器学习系统加速方法。本发明包括以下步骤:步骤1:调度器从数据库里获取一定数量待训练模型。步骤2:根据各个训练任务的位置偏好性将其划分成多个子任务部署到各个服务器上。步骤3:调度策略管理器不断根据各个任务距离达到时间公平性的难易程度分配GPU资源。步骤4:根据当前网络状况动态调整TCP缓冲区大小。步骤5:调度策略管理器根据负载运行情况将相应结果,记录到数据库中。步骤6:根据数据库中待训练模型的情况决定是否继续进行调度。本发明根据时间公平性和位置敏感性的任务调度策略,可以避免出现机器学习模型训练过程中出现长尾延迟等问题,提高了集群的服务质量。
技术领域
本发明涉及机器学习系统通信与负载调度的实现方法,尤其是在大规模分布式机器学习系统中,通过合理优化调度减少模型训练时间的方法。
背景技术
随着人工智能技术的不断发展,海量数据的训练和大规模模型的出现使得单机模型训练日益不能满足人工智能应用在性能上的需求,因此有学者提出了数据并行和模型并行这样的分布式机器学习技术来提升模型的训练速度。数据并行目前已经被广泛地研究并进行性能方面的优化,然而随着模型规模的增大,对于单机内存无法容纳的大模型来说,模型并行是解决计算、存储瓶颈的唯一方法。
在模型并行中,需要将模型划分成多个部分以分配到多台设备上进行并行训练。对模型进行划分时,往往需要考虑模型的结构特点。比如对深层神经网络进行模型划分的时候,可以考虑模型的层次结构,进行逐层的横向划分或者跨层的纵向划分。两种划分方法各有其优缺点,比如采用逐层的横向划分时,各子模型之间的接口清晰、实现简单,但是受到层数的限制,并行度可能不够高,并且在极端情况下,单层的模型参数可能已经超出了一个工作节点的容限。采用跨层的纵向划分方式,可以将模型切分成更多份,但是各子模型之间的依赖关系会更加复杂,实现起来难度更大,并且通信代价也比较高。所以目前分布式机器学习模型训练速度慢,模型参数规模大导致通信代价较高等依然是模型并行面临的主要问题。
模型训练速度慢的一个主要原因之一就是集群中GPU资源存在分配不公平的情况。目前企业通常将GPU资源整合到一个共享集群中来提供服务,和用于大数据分析的集群类似,用于机器学习模型训练任务的GPU共享集群同样具备了多方面的优势,例如减少了开发工作,降低了GPU的维护成本等。但是目前并没有一种针对机器学习负载所设计的能够公平地共享集群GPU资源的任务调度策略。
公平地分配GPU资源对于模型训练任务而言至关重要。研究表明,只有当集群中GPU资源能够被公平得分配给负载时,用户才愿意将训练任务部署到集群上。举个例子,假如有N个用户共享一个GPU集群,集群大小为C,那么理论上来说,每个用户得到的性能体验不能低于大小为C/N的私有集群,这一理论被称为共享激励机制。如果不能保证共享激励机制,那么意味着用户或者需要等待很长一段时间其部署的训练任务才能被调度器调度,或者放弃集群资源转而自己去部署那些昂贵的硬件。
虽然通过公平调度机制提供共享激励的策略已经在先前的集群调度器中得到了广泛研究,例如Quincy,DRF和Carbyne等等。但是,这些技术是专为大数据处理任务而设计的,尽管它们如今已被广泛用于管理GPU集群,但效果远远不如预期。主要原因是由于模型训练任务的工作负载有其独特性,这些特性使现有所谓的“公平”分配方案实际上产生了不公平的结果。首先,与批处理分析任务不同,机器学习任务负载运行周期长,而且这些负载执行需要按照一定的先后顺序。其次,作业中的每个任务通常需要进行多次迭代,在每次迭代结束时还要同步更新模型。另外负载之间需要进行频繁的通信,而频繁的通信意味着属于同一任务的负载所在服务器位置会对任务的性能产生影响(也叫做位置敏感性),所以将同一任务的所有负载放置在同一台机器或同一机架上可显着提高训练速度。但是将同一任务的所有负载放置在同一台机器或同一机架上无法保证执行时的容错性,而且不同的模型训练任务的位置敏感性又是不同的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010587173.3/2.html,转载请声明来源钻瓜专利网。