[发明专利]一种基于网络重配置的分布式机器学习系统加速方法在审
申请号: | 202010587173.3 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111767146A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 裘翼滔;蒋从锋;欧东阳;闫龙川;殷昱煜;张纪林;黄震;赵子岩;李妍 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 配置 分布式 机器 学习 系统 加速 方法 | ||
1.一种基于可重配置网络加速分布式机器学习系统的方法,其特征在于该方法包括如下步骤:
步骤1: 调度器从数据库里获取一定数量的待训练模型,包括待训练模型的输入参数、位置偏好性和日志文件位置;
步骤2: 根据各个训练任务的位置偏好性将待训练模型划分成多个子任务部署到各个服务器上;
步骤3: 在模型训练程序运行过程中,调度策略管理器不断根据各个任务距离达到时间公平性的难易程度分配GPU资源;
所述分配GPU资源过程中使用拍卖策略,所述的拍卖策略包括单次拍卖和多次拍卖;
所述的单轮拍卖主要由以下两部分组成:
A. 初始分配;基于所有应用程序的完成时间计算所有应用程序的初始时间公平性,然后为每个应用程序分配相应的GPU资源;
B. 确保应用程序根据实际情况申请GPU资源;为了让应用程序能够根据实际情况申请GPU资源,在拍卖过程中使用GPU资源部分分配的方式;
多次拍卖主要由以下三部分组成
C. 逐轮拍卖;在逐轮拍卖过程中,拍卖所得的GPU资源使用权仅在租约期限内有效;租约到期后,被释放的GPU资源将被重新拍卖;
D. 逐轮过滤;在每轮拍卖开始前,将部分时间公平性值较大的应用程序排除;
E. 剩余分配;每轮拍卖结束后将剩余的GPU资源随机分配给未参与本轮拍卖的应用;
步骤4: 在模型训练程序一轮迭代过后各个负载之间进行数据同步时,根据当前网络状况动态调整TCP缓冲区大小;
所述的动态调整TCP缓冲区主要分成以下三步:
a.设置TCP缓冲区大小的最小值和最大值;
b.设定时间t,即在网络连接建立的t毫秒之前就开始动态调整TCP缓冲区大小;
c.在通信过程中根据实际发送的数据包数量以及带宽的变化动态调整TCP缓冲区大小;
如果消息接收方接收数据包的频率或可用网络带宽明显下降,那么将TCP回复报文头部的ECN-Echo标志位设为1,以便消息发送方适当减小缓冲区大小从而降低消息的发送频率,等到消息接收方接收数据包的频率或可用网络带宽重新提高时再将ECN-Echo标志位设为0;
步骤5: 调度策略管理器根据负载运行情况将相应结果记录到数据库中;
步骤6: 根据数据库中待训练模型的情况决定是否继续进行调度。
2.根据权利要求1所述的一种基于可重配置网络加速分布式机器学习系统的方法,其特征在于:步骤3中所述的时间公平性由训练任务在共享集群中的完成时间与应用程序在一个单独集群中的完成时间确定。
3.根据权利要求1或2 所述的一种基于可重配置网络加速分布式机器学习系统的方法,其特征在于:步骤3中使用租约来管理长期运行的模型训练任务,在租约到期时调度程序重新开始进行GPU资源的拍卖。
4.根据权利要求1所述的一种基于可重配置网络加速分布式机器学习系统的方法,其特征在于:步骤4中在源服务器和目标服务器之间的网络连接建立之前先动态调整TCP缓冲区的大小,然后再建立两台服务器之间的网络连接;并且,如果事先的调度计划中已经确定了两台服务器所在的机架之间的通信在通信时会将大部分时间花费在数据包交换机上,那么使用较小的TCP缓冲区来避免产生额外的延迟。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010587173.3/1.html,转载请声明来源钻瓜专利网。