[发明专利]一种用于分布式训练的流式计算系统、方法及装置在审
申请号: | 202111414882.2 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114048039A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 谭光明;朱泓睿;母翟龙;王展;元国军 | 申请(专利权)人: | 中科计算技术西部研究院 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F13/28 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 黄书凯 |
地址: | 401120 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 分布式 训练 计算 系统 方法 装置 | ||
1.一种用于分布式训练的流式计算装置,其特征在于,包括:
数据接收模块,用于接收数据,从数据中解析计算数据和通信控制信息;
缓存管理模块,包括若干缓存单元集合,缓存单元集合用于存储计算数据;
控制模块,用于获取通信控制信息,基于通信控制信息进行调度,标识缓存单元集合内就绪的计算数据;
状态管理模块,用于更新集合通信过程的状态;
计算管理模块,用于根据集合通信过程的状态调用计算设备对缓存单元集合内就绪的计算数据进行计算;
数据发送模块,用于发送通信控制信息和已计算完成的计算数据。
2.根据权利要求1所述的用于分布式训练的流式计算装置,其特征在于:所述控制模块存储有控制字段,控制模块用于将通信控制信息中包含的字段写入到对应的控制字段中,其中控制字段包括就绪Seg ID、计算后数据存储地址、发送Rank ID链表字段、接收Rank ID链表字段和接收Rank ID对应缓冲队列链表字段;
状态管理模块存储有信息字段,状态管理模块用于更新信息字段;其中信息字段包括通信任务状态、错误码、发送端实体状态链表字段和接收端实体状态链表字段。
3.根据权利要求2所述的用于分布式训练的流式计算装置,其特征在于:所述缓存单元集合包括若干缓存单元,控制模块用于根据计算数据的Rank ID和Seg ID将计算数据写入到对应的缓存单元中,同时根据所有缓存单元就绪的SegID更新控制字段中的就绪Seg ID字段。
4.根据权利要求3所述的用于分布式训练的流式计算装置,其特征在于:所述计算管理模块用于从状态管理模块的信息字段中获取当前通信任务状态;
若通信任务状态为已开始,则从控制模块的控制字段中获取就绪Seg ID字段和接收RankID对应缓冲队列链表字段,并判断当前是否有就绪的计算数据;
若无则等待计算数据就绪;
若有则根据接收Rank ID对应缓冲队列链表字段和就绪Seg ID取出就绪后的计算数据通过DMA的方式发送至计算设备,同时更新接收Rank ID对应缓冲队列链表字段和就绪SegID字段,并且释放已经交付计算数据的缓存单元;
还用于根据控制模块的控制字段中计算后数据存储地址将计算完成的计算数据写入主机内存。
5.根据权利要求4所述的用于分布式训练的流式计算装置,其特征在于:所述数据发送模块用于分别从发送端实体状态链表字段和接收端实体状态链表字段中获取当前发送端实体状态和接收端实体状态,并判断发送端实体的状态和接收端实体的状态是否都为已连接;
若未连接,继续获取当前发送端实体状态和接收端实体状态;
若已连接,从控制模块中获取计算后数据存储地址;判断是否存在计算完成但是未发送到网络的计算数据;若无则继续获取计算后数据存储地址,若有则通过DMA的方式获取计算完成的计算数据。
6.一种用于分布式训练的流式计算方法,其特征在于,包括:
数据接收步骤:接收数据,从数据中解析计算数据和通信控制信息,将通信控制信息中包含的字段写入到对应控制字段中;
缓存管理步骤:将计算数据存入对应的缓存单元中;并在控制字段中标识缓存单元内就绪的计算数据;
计算管理步骤,判断当前是否有就绪的计算数据;若有取出就绪后的计算数据通过DMA的方式发送至计算设备计算,并释放已经交付计算数据的缓存单元;根据计算后数据存储地址将计算完成的计算数据写入主机内存;
状态管理步骤:更新信息字段;
数据发送步骤,判断是否存在计算完成但是未发送至网络的计算数据;若有则通过DMA的方式将计算完成的计算数据传输至网卡。
7.根据权利要求6所述的用于分布式训练的流式计算方法,其特征在于:所述控制字段包括就绪Seg ID、计算后数据存储地址、发送Rank ID链表字段、接收Rank ID链表字段和接收Rank ID对应缓冲队列链表字段;
信息字段包括通信任务状态、错误码、发送端实体状态链表字段和接收端实体状态链表字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科计算技术西部研究院,未经中科计算技术西部研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111414882.2/1.html,转载请声明来源钻瓜专利网。