[发明专利]人工智能推理框架的推理方法、计算机设备及介质在审
申请号: | 202310002237.2 | 申请日: | 2023-01-03 |
公开(公告)号: | CN115952866A | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 祖春山 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N20/00 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 李远思 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工智能 推理 框架 方法 计算机 设备 介质 | ||
1.一种人工智能推理框架的推理方法,其特征在于,包括
获取推理请求;
根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸;
根据推理请求数量、推理模型的实例数量及每个实例的最大批尺寸将推理模型加载到实例,以对推理请求进行推理处理。
2.根据权利要求1所述的方法,其特征在于,所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括:
根据推理请求包含的最大允许延迟信息,判断当前的总体推理请求延迟需求满足率是否大于等于预设满足率阈值:
若是,减少满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸;
若否,增加未满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸。
3.根据权利要求2所述的方法,其特征在于,所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括:
在根据获取的推理请求判定需要加载新的推理模型时,判断人工智能推理框架的空闲计算资源是否满足新的推理模型的计算资源需求:
若是,启动新的推理模型;
若否,计算人工智能推理框架的空闲计算资源与新的推理模型的计算资源需求之间的差值,并根据所述差值减少满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸。
4.根据权利要求1所述的方法,其特征在于,所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括:
在判定存在已完成推理处理的推理模型时,停用所述已完成推理处理的推理模型。
5.根据权利要求1所述的方法,其特征在于,所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括:以设定时间间隔根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估,并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸。
6.根据权利要求1所述的方法,其特征在于,所述根据推理请求数量、推理模型的实例数量及每个实例的最大批尺寸将推理模型加载到实例包括:
判断每个推理模型对应的推理请求数量是否大于预设最大推理请求数量阈值:
若是,将该推理模型的每个实例的批尺寸设置为最大批尺寸,并将该推理模型加载到实例,以对推理请求进行推理处理;
若否,将该推理模型的每个实例的批尺寸设置为预设批尺寸,并将该推理模型加载到实例,以对推理请求进行推理处理。
7.根据权利要求1所述的方法,其特征在于,所述根据推理请求数量、推理模型的实例数量及每个实例的最大批尺寸将推理模型加载到实例包括:
判断每个推理模型对应的推理请求数量是否小于预设最小推理请求数量阈值:
若是,将该推理模型的每个实例的批尺寸设置为预设最小批尺寸,并将该推理模型加载到实例,以对推理请求进行推理处理;
若否,将该推理模型的每个实例的批尺寸设置为预设批尺寸,并将该推理模型加载到实例,以对推理请求进行推理处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310002237.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:物流车辆智能调度方法、装置、设备及存储介质
- 下一篇:一种钢丝绳预紧机构