[发明专利]自动缩放托管的机器学习模型以进行产生式推断在审
申请号: | 201880076131.4 | 申请日: | 2018-11-20 |
公开(公告)号: | CN111386516A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | S·史蒂芬妮;S·A·洛伊普基;小托马斯·A·福尔哈伯;C·威利;E·利伯蒂 | 申请(专利权)人: | 亚马逊技术股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 钱慰民;黄嵩泉 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 缩放 托管 机器 学习 模型 进行 产生 推断 | ||
1.一种计算机实施的方法,其包括:
监测与在提供商网络中执行的、用于实施机器学习模型的一个或多个模型实例的队列相关联的一组一个或多个操作度量;
基于所述监测,确定满足与所述队列相关联的度量条件;以及
响应于所述确定满足所述度量条件,向所述队列添加模型实例或从所述队列中移除所述队列的模型实例中的一个。
2.如权利要求1所述的计算机实施的方法,其中所述度量条件是基于一组操作特征的一个或多个操作度量,其中所述一个或多个操作度量包括以下各者中的至少一者:
输入或输出度量,其指示在一段时间内针对所述机器学习模型接收的请求的量或由所述机器学习模型发送的响应的量;
延迟度量,其指示在该段时间内针对所述机器学习模型接收的每个请求的处理时间量;
可靠性度量,其指示在该段时间内与所述队列的模型实例相关联的成功率或失败率;或者
利用率度量,其指示由所述队列的模型实例中的一个或多个利用的物理或虚拟计算资源的利用率。
3.如权利要求1至2中任一项所述的计算机实施的方法,其中所述度量条件由所述提供商网络的用户指定。
4.如权利要求3所述的计算机实施的方法,其还包括:
向所述用户的电子装置传输要呈现给所述用户的用户界面的数据,其中所述用户界面包括示出了该组一个或多个操作度量的多个值的图表。
5.如权利要求4所述的计算机实施的方法,其中所述用户界面还指示随着时间的推移所述队列的模型实例中的模型实例的数量。
6.如权利要求1至5中任一项所述的计算机实施的方法,其还包括:
基于与所述队列相关联的一个或多个历史操作度量来生成模型;
基于所述模型确定所述机器学习模型的利用率的预测增加将在某个时间或在某个时间之后发生;以及
在所述时间之前,响应于所述确定将发生所述利用率的所述预测增加,向所述队列添加至少一个模型实例或创建一个或多个暖池实例。
7.如权利要求6所述的计算机实施的方法,其中响应于所述确定将发生所述利用率的所述预测增加来创建所述一个或多个暖池实例,并且其中所述操作还包括向所述队列添加所述一个或多个暖池实例。
8.如权利要求1至7中任一项所述的计算机实施的方法,其中向所述队列添加模型实例或从所述队列中移除所述队列的模型实例中的一个包括:将应用程序编程接口(API)请求消息传输到所述提供商网络的端点。
9.如权利要求1至8中任一项所述的计算机实施的方法,其中所述队列的一个或多个模型实例中的至少一个模型实例包括容器,所述容器包括模型代码,其中所述容器在虚拟机上执行。
10.一种系统,其包括:
由第一一个或多个电子装置执行的一个或多个模型实例的队列;以及
由第二一个或多个电子装置实施的自动缩放系统,其中所述自动缩放系统包括指令,所述指令在由所述第二一个或多个电子装置执行时,使得所述自动缩放系统执行以下操作:
监测与在提供商网络中执行的、用于实施机器学习模型的一个或多个模型实例的队列相关联的一组一个或多个操作度量;
基于所述监测,确定满足与所述队列相关联的度量条件;并且
响应于所述确定满足所述度量条件,向所述队列添加模型实例或从所述队列中移除所述队列的模型实例中的一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊技术股份有限公司,未经亚马逊技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880076131.4/1.html,转载请声明来源钻瓜专利网。