[发明专利]深度神经网络服务批处理调度方法、系统及GPU有效
申请号: | 202110209701.6 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112817730B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 陈全;过敏意;崔炜皞;赵涵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06T1/20;G06N3/063 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 庞红芳 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 神经 网络服务 批处理 调度 方法 系统 gpu | ||
1.一种深度神经网络服务批处理调度方法,其特征在于:包括:
构建包含多个批处理调度策略的批处理调度策略池;
基于用户输入的服务质量要求信息和神经网络模型的类型确定对应的批处理调度策略,并配置所述确定的批处理调度策略;
基于批处理调度策略的配置情况对所述神经网络模型执行服务调度;
所述批处理调度策略包括AutoReduce批处理调度策略;所述AutoReduce批处理调度策略中,将单个卷积神经网络模型切分为前后两部分,对所述单个卷积神经网络模型的前后部分别采取不同的批处理策略。
2.根据权利要求1所述的深度神经网络服务批处理调度方法,其特征在于:所述AutoReduce策略包括由多个合并引擎组成的合并引擎簇和归一引擎;所述合并引擎簇中的各合并子引擎负责所述单个卷积神经网络模型执行的前半部分,所述归一引擎负责合并引擎簇执行完成后的所述单个卷积神经网络模型的剩余后半部分。
3.根据权利要求2所述的深度神经网络服务批处理调度方法,其特征在于:所述配置所述确定的批处理调度策略包括:配置卷积神经网络模型加入到所述合并引擎簇的卷积操作符的数量。
4.根据权利要求1所述的深度神经网络服务批处理调度方法,其特征在于:所述批处理调度策略包括PipeLine批处理调度策略;所述PipeLine批处理调度策略中,将单个卷积神经网络模型切分为多段等执行时间长的子模型,并将各子模型组织成为软件流水线。
5.根据权利要求4所述的深度神经网络服务批处理调度方法,其特征在于:所述配置所述确定的批处理调度策略包括:配置将各子模型组织成为软件流水线后的流水线级数。
6.根据权利要求1、3或5所述的深度神经网络服务批处理调度方法,其特征在于:所述基于批处理调度策略的配置情况对所述神经网络模型执行服务调度包括:基于用户需求将所述神经网络模型切分成多个子模型,并为多个子模型生成对应的的执行子引擎,通过所述各执行子引擎对所述神经网络模型的各子模型执行服务调度。
7.根据权利要求1所述的深度神经网络服务批处理调度方法,其特征在于:所述服务质量要求信息包括深度神经网络推理请求的处理延迟。
8.一种深度神经网络服务批处理调度系统,其特征在于:所述深度神经网络服务批处理调度系统包括:
批处理调度策略池模块,构建包含多个批处理调度策略的批处理调度策略池;
策略选择器模块,基于神经网络模型的类型确定对应的批处理调度策略,并配置所述确定的批处理调度策略;所述批处理调度策略包括AutoReduce批处理调度策略;所述AutoReduce批处理调度策略中,将单个卷积神经网络模型切分为前后两部分,对所述单个卷积神经网络模型的前后部分别采取不同的批处理策略;
调度器模块,基于批处理调度策略的配置情况对所述神经网络模型执行服务调度。
9.一种GPU,其特征在于:所述GPU应用如权利要求1至权利要求7所述的深度神经网络服务批处理调度方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110209701.6/1.html,转载请声明来源钻瓜专利网。