[发明专利]模型上线方法及装置、强化学习平台在审
申请号: | 202111151075.6 | 申请日: | 2021-09-29 |
公开(公告)号: | CN115878255A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 王昱森;戴振衡;颜丙政;刘兴杰 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王艳茹;苏银虹 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 上线 方法 装置 强化 学习 平台 | ||
本公开提供了一种模型上线方法及装置、强化学习平台,该方法包括:仿真环境转换层获取预定场景下的至少一个仿真器的仿真环境信息并将仿真环境信息分别转换为与至少一个仿真器对应的模型的输入格式匹配的转换信息;分布式训练层对至少一个仿真器对应的模型训练得到训练好的多个模型;在多个模型中的一个模型完成训练时,上线服务层将一个模型对应的仿真器的转换信息输入到一个模型中得到对应的仿真器的决策信息,其中多个模型中其他模型中未完成训练的模型继续在分布式训练层中训练;仿真环境转换层将决策信息转换为与一个模型对应的仿真器的输入格式匹配的动作信息并将动作信息传输给一个模型对应的仿真器。
技术领域
本申请涉及强化学习领域,以下描述涉及一种模型上线方法及装置、强化学习平台。
背景技术
强化学习在游戏、军事、交通、物流、机器人、金融、广告等领域有着非常大的应用场景,特别是近年来,强化学习在策略游戏、军事推演等领域迎来了很多实际落地的应用,如通过强化学习进行军事仿真、推演模拟,可以有效的提高战术推演效率。
目前,强化学习平台在一次场景建模中只能对接单一的仿真器,使得强化学习平台接入仿真环境的方式非常定制化,然而现阶段的强化学习的仿真环境的定义各式各样,很难统一,故针对不同的仿真环境需要定制相应的仿真器,使得成本居高不下。此外,由于目前强化学习平台都是将离线建模和线上服务分开的,离线建模产出的模型,也需要通过定制开发来融入到线上的仿真环境中。
发明内容
本公开的示例性实施例可至少解决上述问题,也可不解决上述问题。
根据本公开的第一方面,提供了一种模型上线方法,应用于强化学习平台,其中,强化学习平台包括仿真环境转换层、分布式训练层和上线服务层,模型上线方法包括:仿真环境转换层获取预定场景下的至少一个仿真器的仿真环境信息,并将仿真环境信息分别转换为与至少一个仿真器对应的模型的输入格式匹配的转换信息;分布式训练层对至少一个仿真器对应的模型进行训练,得到训练好的多个模型;在多个模型中的一个模型完成训练的情况下,上线服务层将一个模型对应的仿真器的转换信息输入到一个模型中,得到一个模型对应的仿真器的决策信息,其中,多个模型中其他模型中未完成训练的模型继续在分布式训练层中进行训练;仿真环境转换层将决策信息转换为与一个模型对应的仿真器的输入格式匹配的动作信息,并将动作信息传输给一个模型对应的仿真器,以便一个模型对应的仿真器执行动作信息对应的操作。
可选地,仿真环境转换层包括仿真环境对接层和强化学习环境定义层,针对至少一个仿真器中每个仿真器,该方法还包括:仿真环境对接层获取预定场景下的当前仿真器的仿真环境信息;强化学习环境定义层将仿真环境信息转换为与当前仿真器对应的模型的输入格式匹配的转换信息并将转换信息发送给所述上线服务层;强化学习环境定义层接收上线服务层反馈的决策信息并将决策信息转换为与当前仿真器的输入格式匹配的动作信息;仿真环境对接层将动作信息传输给当前仿真器。
可选地,仿真环境对接层包括至少一个模拟器和至少一个调度器,方法还包括:基于至少一个调度器的控制信息,至少一个模拟器分别获取预定场景下的至少一个仿真器的仿真环境信息。
可选地,强化学习平台还包括模型管理层,方法还包括:在多个模型中的一个模型完成训练的情况下,分布式训练层将训练好的一个模型传输给模型管理层。
可选地,强化学习平台还包括算法层,方法还包括:算法层自定义至少一个仿真器对应的模型的算法。
可选地,仿真环境转换层获取预定场景下的至少一个仿真器的仿真环境信息,包括:仿真环境转换层接收至少一个仿真器的行动请求,其中,行动请求中携带有预定场景下的至少一个仿真器的仿真环境信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111151075.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种摄像模组及电子设备
- 下一篇:一种试管柜及试管柜管理系统