[发明专利]脚本与模型分离提升GPU计算吞吐的推理引擎设计方法在审

申请号：	202110894802.1	申请日：	2021-08-05
公开（公告）号：	CN113342538A	公开（公告）日：	2021-09-03
发明（设计）人：	唐伟鹏;吴小炎;吴名朝	申请（专利权）人：	浩鲸云计算科技股份有限公司
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	南京中盟科创知识产权代理事务所(特殊普通合伙) 32279	代理人：	孙丽君
地址：	210000 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	脚本模型分离提升 gpu 计算吞吐推理引擎设计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了脚本与模型分离提升GPU计算吞吐的推理引擎设计方法，该方法包括以下步骤：对CPU处理和GPU处理的逻辑进行模块拆分与抽象；对CPU处理和GPU处理之间传递的数据进行序列化；容器化进程通信；模块容器化多实例部署；反向代理和负载均衡；利用弹性伸缩，实时调节实例数量。有益效果：通过对CPU处理和GPU处理进行抽象、解耦，增加了复用，解决了串行问题，真正达到CPU预处理和GPU神经网络计算可以独自分布式计算，按照实际环境，不同模型配置不同比例的容器化实例，比如20个CPU容器配比4个GPU容器，充分利用了GPU资源，提高GPU吞吐率。

技术领域

本发明涉及GPU技术领域，具体来说，涉及脚本与模型分离提升GPU计算吞吐的推理引擎设计方法。

背景技术

如今，大部分的一个AI能力会包含多个算法，而算法与算法之间是有数据依赖和交互的，比如，A算法的输出将作为B算法的输入。而且，算法通常会包含不少对数据的预处理和后处理，比如图片size规格化等。

而当前因为脚本和模型是没有分离的，CPU和GPU的计算是没有拆开的，变成了一个整体，而CPU的计算能力又远低于GPU的计算能力，从而使得GPU的吞吐变得很低。

例如当企业做数字化转型的时候，必定会面临AI场景，有AI应用和AI能力的需求。而在真正的AI能力的生产过程中，必定存在AI能力的调用，通常是基于AI能力开放平台对外提供API实现。AI能力开放平台中，会存在视频、图像类的能力，对计算资源有硬件加速的需求，往往是用GPU去解决，而GPU是及其昂贵的一种计算资源。

由于算法之间数据的预处理往往是基于CPU计算，而视觉类矩阵神经网络是依赖于GPU计算，这两者之间是有通信的，在未分离的基础前提之下，CPU计算到GPU计算是串行的，在这种机制上，会降低GPU的使用吞吐。尤其是当一个AI能力包含多个算法，并且多算法之间有依赖关系的时候，该问题及其显著，GPU吞吐一般小于40%。

目前现有技术未使用到分离模型和脚本的算法，如图2所示，当脚本在对数据进行预处理等操作时，GPU这块逻辑是空闲着的，而往往CPU进行处理的时间会比GPU处理的时间长，所以会造成大大的浪费。又比如，一个人脸对比的算法，通常会包含人脸检测、人脸审核、人脸对齐、人脸识别等步骤，实际流程如图3所示。

因此为了解决这一现象，可以将脚本（CPU预处理）、模型（GPU神经网络计算）分离，彼此解耦，真正达到CPU预处理和GPU神经网络计算可以独自分布式计算，解决了相互依赖的串行行为，从而提升GPU的使用吞吐。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出脚本与模型分离提升GPU计算吞吐的推理引擎设计方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

脚本与模型分离提升GPU计算吞吐的推理引擎设计方法，该方法包括以下步骤：

对CPU处理和GPU处理的逻辑进行模块拆分与抽象；

对CPU处理和GPU处理之间传递的数据进行序列化；

容器化进程通信；

模块容器化多实例部署；

反向代理和负载均衡；