[发明专利]人工智能推理框架的推理方法、计算机设备及介质在审
申请号: | 202310002237.2 | 申请日: | 2023-01-03 |
公开(公告)号: | CN115952866A | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 祖春山 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N20/00 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 李远思 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工智能 推理 框架 方法 计算机 设备 介质 | ||
本发明实施例公开一种人工智能推理框架的推理方法、计算机设备及介质。在一具体实施方式中,该方法包括:获取推理请求;根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸;根据推理请求数量、推理模型的实例数量及每个实例的最大批尺寸将推理模型加载到实例,以对推理请求进行推理处理。该实施方式可在云计算AI服务、边缘计算AI服务场景下,通过持续动态优化推理配置及推理调度实现AI推理框架的动态推理性能优化,提升推理效率。
技术领域
本发明涉及人工智能技术领域。更具体地,涉及一种人工智能推理框架的推理方法、计算机设备及介质。
背景技术
目前,在云计算人工智能(Artificial Intelligence,AI)服务、边缘计算AI服务等场景下,受计算资源的限制,AI推理框架推理效率难以得到保证,特别是在短时间内收到大量推理请求、推理请求的最大允许延迟较小等情况下,直接根据推理请求到来的顺序依次处理的方式难以满足延迟率等方面的需求。
发明内容
本发明的目的在于提供一种人工智能推理框架的推理方法、计算机设备及介质,以解决现有技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供一种人工智能推理框架的推理方法,包括
获取推理请求;
根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸;
根据推理请求数量、推理模型的实例数量及每个实例的最大批尺寸将推理模型加载到实例,以对推理请求进行推理处理。
可选地,所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括:
根据推理请求包含的最大允许延迟信息,判断当前的总体推理请求延迟需求满足率是否大于等于预设满足率阈值:
若是,减少满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸;
若否,增加未满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸。
可选地,所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括:
在根据获取的推理请求判定需要加载新的推理模型时,判断人工智能推理框架的空闲计算资源是否满足新的推理模型的计算资源需求:
若是,启动新的推理模型;
若否,计算人工智能推理框架的空闲计算资源与新的推理模型的计算资源需求之间的差值,并根据所述差值减少满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸。
可选地,所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括:
在判定存在已完成推理处理的推理模型时,停用所述已完成推理处理的推理模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310002237.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:物流车辆智能调度方法、装置、设备及存储介质
- 下一篇:一种钢丝绳预紧机构