[发明专利]人工智能推理框架的推理方法、计算机设备及介质在审

申请号：	202310002237.2	申请日：	2023-01-03
公开（公告）号：	CN115952866A	公开（公告）日：	2023-04-11
发明（设计）人：	祖春山	申请（专利权）人：	京东方科技集团股份有限公司
主分类号：	G06N5/04	分类号：	G06N5/04;G06N20/00
代理公司：	北京正理专利代理有限公司 11257	代理人：	李远思
地址：	100015 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人工智能推理框架方法计算机设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开一种人工智能推理框架的推理方法、计算机设备及介质。在一具体实施方式中，该方法包括：获取推理请求；根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估，并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸；根据推理请求数量、推理模型的实例数量及每个实例的最大批尺寸将推理模型加载到实例，以对推理请求进行推理处理。该实施方式可在云计算AI服务、边缘计算AI服务场景下，通过持续动态优化推理配置及推理调度实现AI推理框架的动态推理性能优化，提升推理效率。

技术领域

本发明涉及人工智能技术领域。更具体地，涉及一种人工智能推理框架的推理方法、计算机设备及介质。

背景技术

目前，在云计算人工智能(Artificial Intelligence，AI)服务、边缘计算AI服务等场景下，受计算资源的限制，AI推理框架推理效率难以得到保证，特别是在短时间内收到大量推理请求、推理请求的最大允许延迟较小等情况下，直接根据推理请求到来的顺序依次处理的方式难以满足延迟率等方面的需求。

发明内容

本发明的目的在于提供一种人工智能推理框架的推理方法、计算机设备及介质，以解决现有技术存在的问题中的至少一个。

为达到上述目的，本发明采用下述技术方案：

本发明第一方面提供一种人工智能推理框架的推理方法，包括

获取推理请求；

根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估，并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸；

根据推理请求数量、推理模型的实例数量及每个实例的最大批尺寸将推理模型加载到实例，以对推理请求进行推理处理。

可选地，所述根据推理请求包含的最大允许延迟信息及人工智能推理框架的计算资源占用率对人工智能推理框架进行推理性能评估，并根据推理性能评估结果配置推理模型的实例数量及每个实例的最大批尺寸包括：

根据推理请求包含的最大允许延迟信息，判断当前的总体推理请求延迟需求满足率是否大于等于预设满足率阈值：

若是，减少满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸；

若否，增加未满足最大允许延迟的推理请求对应的推理模型的实例数量和/或实例的最大批尺寸。

在根据获取的推理请求判定需要加载新的推理模型时，判断人工智能推理框架的空闲计算资源是否满足新的推理模型的计算资源需求：