[发明专利]脚本与模型分离提升GPU计算吞吐的推理引擎设计方法在审
申请号: | 202110894802.1 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113342538A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 唐伟鹏;吴小炎;吴名朝 | 申请(专利权)人: | 浩鲸云计算科技股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 | 代理人: | 孙丽君 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 脚本 模型 分离 提升 gpu 计算 吞吐 推理 引擎 设计 方法 | ||
1.脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,该方法包括以下步骤:
对CPU处理和GPU处理的逻辑进行模块拆分与抽象;
对CPU处理和GPU处理之间传递的数据进行序列化;
容器化进程通信;
模块容器化多实例部署;
反向代理和负载均衡;
利用弹性伸缩,实时调节实例数量。
2.根据权利要求1所述的脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,所述对CPU处理和GPU处理的逻辑进行模块拆分与抽象包括以下步骤:
针对所述CPU处理和GPU处理的逻辑,按照拆分原则进行模块拆分与抽象,将相耦合的两者分离、解耦;
对CPU处理进行第二次抽象;
对GPU处理进行第二次抽象。
3.根据权利要求2所述的脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,所述拆分原则为模块化、原子、复用原则。
4.根据权利要求1所述的脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,所述容器化进程通信的方法为使用远程过程调用来传递序列化后的数据,实现不同进程之间的数据通信。
5.根据权利要求1所述的脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,所述模块容器化多实例部署包括以下步骤:
采用容器平台,基于容器化多副本部署,将脚本与模型分开部署;
根据CPU与GPU脚本逻辑相互调用模块之间的算力差异比例,部署对应比例的实例数量;
控制器自动维护对应的实例。
6.根据权利要求1所述的脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,所述反向代理和负载均衡包括以下步骤:
对同一模块的多实例进行反向代理,分发请求;
反向代理服务器根据实例节点的性能,使用不同的负载均衡策略,动态分配请求,达到服务节点的最佳性能。
7.根据权利要求1所述的脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,所述利用弹性伸缩,实时调节实例数量包括以下步骤:
利用容器平台的弹性伸缩功能,对实例的指标进行监控;
设定具体的对比阈值、抖动时长;
实时的调整副本数,避免实例不足导致的阻塞与空闲实例导致的资源浪费。
8.根据权利要求7所述的脚本与模型分离提升GPU计算吞吐的推理引擎设计方法,其特征在于,所述实例的指标包括调用数量、CPU使用率及内存使用量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浩鲸云计算科技股份有限公司,未经浩鲸云计算科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110894802.1/1.html,转载请声明来源钻瓜专利网。