[发明专利]模型上线方法及装置、强化学习平台在审
申请号: | 202111151075.6 | 申请日: | 2021-09-29 |
公开(公告)号: | CN115878255A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 王昱森;戴振衡;颜丙政;刘兴杰 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王艳茹;苏银虹 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 上线 方法 装置 强化 学习 平台 | ||
1.一种模型上线方法,应用于强化学习平台,其中,所述强化学习平台包括仿真环境转换层、分布式训练层和上线服务层,所述模型上线方法包括:
所述仿真环境转换层获取预定场景下的至少一个仿真器的仿真环境信息,并将所述仿真环境信息分别转换为与所述至少一个仿真器对应的模型的输入格式匹配的转换信息;
所述分布式训练层对所述至少一个仿真器对应的模型进行训练,得到训练好的多个模型;
在所述多个模型中的一个模型完成训练的情况下,所述上线服务层将所述一个模型对应的仿真器的转换信息输入到所述一个模型中,得到所述一个模型对应的仿真器的决策信息,其中,所述多个模型中其他模型中未完成训练的模型继续在所述分布式训练层中进行训练;
所述仿真环境转换层将所述决策信息转换为与所述一个模型对应的仿真器的输入格式匹配的动作信息,并将所述动作信息传输给所述一个模型对应的仿真器,以便所述一个模型对应的仿真器执行所述动作信息对应的操作。
2.根据权利要求1中所述的模型上线方法,其中,所述仿真环境转换层包括仿真环境对接层和强化学习环境定义层,针对所述至少一个仿真器中每个仿真器,所述方法还包括:
所述仿真环境对接层获取预定场景下的当前仿真器的仿真环境信息;
所述强化学习环境定义层将所述仿真环境信息转换为与所述当前仿真器对应的模型的输入格式匹配的转换信息并将所述转换信息发送给所述上线服务层;
所述强化学习环境定义层接收所述上线服务层反馈的决策信息并将所述决策信息转换为与所述当前仿真器的输入格式匹配的动作信息;
所述仿真环境对接层将所述动作信息传输给所述当前仿真器。
3.根据权利要求2中所述的模型上线方法,其中,所述仿真环境对接层包括至少一个模拟器和至少一个调度器,所述方法还包括:
基于所述至少一个调度器的控制信息,所述至少一个模拟器分别获取预定场景下的至少一个仿真器的仿真环境信息。
4.根据权利要求1中所述的模型上线方法,其中,所述强化学习平台还包括模型管理层,所述方法还包括:
在所述多个模型中的一个模型完成训练的情况下,所述分布式训练层将训练好的一个模型传输给所述模型管理层。
5.根据权利要求1中所述的模型上线方法,其中,所述强化学习平台还包括算法层,所述方法还包括:
所述算法层自定义所述至少一个仿真器对应的模型的算法。
6.根据权利要求1中所述的模型上线方法,其中,所述仿真环境转换层获取预定场景下的至少一个仿真器的仿真环境信息,包括:
所述仿真环境转换层接收所述至少一个仿真器的行动请求,其中,所述行动请求中携带有所述预定场景下的至少一个仿真器的仿真环境信息。
7.一种模型上线装置,其中,应用于强化学习平台,其中,所述强化学习平台包括仿真环境转换层、分布式训练层和上线服务层,所述模型上线装置包括:
仿真环境转换单元,被配置为调用所述仿真环境转换层获取预定场景下的至少一个仿真器的仿真环境信息,并将所述仿真环境信息分别转换为与所述至少一个仿真器对应的模型的输入格式匹配的转换信息;
训练单元,被配置为调用所述分布式训练层对所述至少一个仿真器对应的模型进行训练,得到训练好的多个模型;
模型上线服务单元,被配置为在所述多个模型中的一个模型完成训练的情况下,调用所述上线服务层将所述一个模型对应的仿真器的转换信息输入到所述一个模型中,得到所述一个模型对应的仿真器的决策信息,其中,所述多个模型中其他模型中未完成训练的模型继续在所述分布式训练层中进行训练;
动作信息获取单元,被配置为调用所述仿真环境转换层将所述决策信息转换为与所述一个模型对应的仿真器的输入格式匹配的动作信息,并将所述动作信息传输给所述一个模型对应的仿真器,以便所述一个模型对应的仿真器执行所述动作信息对应的操作。
8.一种强化学习平台,其中,所述强化学习平台执行如权利要求1至6中的任一权利要求所述的模型上线方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111151075.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种摄像模组及电子设备
- 下一篇:一种试管柜及试管柜管理系统