[发明专利]用于经由多次迭代训练用于控制装置的控制策略的设备和方法在审
申请号: | 202110470954.9 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113590455A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | F·施密特;J·M·德林格 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 杜荔南;刘春元 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 经由 多次 训练 控制 装置 策略 设备 方法 | ||
1.用于经由多次迭代训练用于控制装置的控制策略的方法,其中在每个迭代中
对于所述控制策略的当前版本确定探索策略;
执行多个模拟过程,其中为每个模拟过程:
针对状态序列中的每个状态根据探索策略从所述模拟过程的初始状态开始一直选择动作,并且检验所选择的动作是否是安全的,直至已选择了安全动作或者已选择了最大数量为大于等于2的动作为止,
如果已选择了安全动作,则在执行所选择的动作时通过模拟确定所述状态序列中的状态的后续状态,或者如果在根据所述策略达到所述最大数量之前未选择安全动作,则中止所述模拟过程,或者如果存在预先给定的安全动作,则选择这样的预先给定的安全动作,并且在执行所选择的预先给定的安全动作时通过模拟确定所述状态序列中的状态的后续状态,
作为所述模拟过程的数据收集具有所选择的动作以及在所述状态中获得的奖励的状态序列;
对于迭代,经由所执行的模拟过程的数据确定损失函数的值;并且
针对新版本适配控制策略,使得减小损失函数值。
2.根据权利要求1所述的方法,其中所述损失函数具有辅助项,所述辅助项取决于所执行的模拟过程的数据并且惩罚在所述模拟过程中对不安全动作的选择。
3.根据权利要求2所述的方法,其中对所述辅助项进行加权,并且其中在迭代的过程中,从初始权重开始减少加权。
4.根据权利要求1至3中任一项所述的方法,其中所述控制策略由神经网络给出,并且所述控制策略的适配包括适配所述神经网络的权重。
5.根据权利要求1至4中任一项所述的方法,其中当状态序列已达到最大长度时或者当在所确定的后续状态中达到控制目标时,结束所述模拟过程。
6.根据权利要求1至5中任一项所述的方法,其中所述损失函数是用于Actor-Critic-RL方法或深度Q学习方法的损失函数。
7.根据权利要求1至6中任一项所述的方法,其中在迭代的过程中从初始值开始减小所述最大数量。
8.设备,所述设备被设立用于执行根据权利要求1至7中任一项所述的方法。
9.控制方法,所述控制方法具有基于根据权利要求1至7中任一项训练的控制策略来控制软件或硬件代理。
10.软件或硬件代理、尤其是机器人,具有
传感器,所述传感器被设立用于提供传感器数据;和
控制装置,所述控制装置被设立用于基于根据权利要求1至7中任一项训练的控制策略来执行对软件或硬件代理的组件的控制。
11.根据权利要求10所述的软件或硬件代理,其具有至少一个执行器,其中所述控制装置被设立用于按照根据权利要求1至7中任一项训练的控制策略来控制所述至少一个执行器。
12.计算机程序,具有程序指令,在所述程序指令由一个或多个处理器执行时所述程序指令使一个或多个处理器执行根据权利要求1至7中任一项所述的方法。
13.计算机可读存储介质,在所述计算机可读存储介质上存储有程序指令,在所述程序指令由一个或多个处理器执行时所述程序指令使一个或多个处理器执行根据权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110470954.9/1.html,转载请声明来源钻瓜专利网。