[发明专利]用于经由多次迭代训练用于控制装置的控制策略的设备和方法在审

申请号：	202110470954.9	申请日：	2021-04-29
公开（公告）号：	CN113590455A	公开（公告）日：	2021-11-02
发明（设计）人：	F·施密特;J·M·德林格	申请（专利权）人：	罗伯特·博世有限公司
主分类号：	G06F11/36	分类号：	G06F11/36;G06N3/08
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	杜荔南;刘春元
地址：	德国斯***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于经由多次训练控制装置策略设备方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.用于经由多次迭代训练用于控制装置的控制策略的方法，其中在每个迭代中

对于所述控制策略的当前版本确定探索策略；

执行多个模拟过程，其中为每个模拟过程：

针对状态序列中的每个状态根据探索策略从所述模拟过程的初始状态开始一直选择动作，并且检验所选择的动作是否是安全的，直至已选择了安全动作或者已选择了最大数量为大于等于2的动作为止，

如果已选择了安全动作，则在执行所选择的动作时通过模拟确定所述状态序列中的状态的后续状态，或者如果在根据所述策略达到所述最大数量之前未选择安全动作，则中止所述模拟过程，或者如果存在预先给定的安全动作，则选择这样的预先给定的安全动作，并且在执行所选择的预先给定的安全动作时通过模拟确定所述状态序列中的状态的后续状态，

作为所述模拟过程的数据收集具有所选择的动作以及在所述状态中获得的奖励的状态序列；

对于迭代，经由所执行的模拟过程的数据确定损失函数的值；并且

针对新版本适配控制策略，使得减小损失函数值。

2.根据权利要求1所述的方法，其中所述损失函数具有辅助项，所述辅助项取决于所执行的模拟过程的数据并且惩罚在所述模拟过程中对不安全动作的选择。

3.根据权利要求2所述的方法，其中对所述辅助项进行加权，并且其中在迭代的过程中，从初始权重开始减少加权。

4.根据权利要求1至3中任一项所述的方法，其中所述控制策略由神经网络给出，并且所述控制策略的适配包括适配所述神经网络的权重。

5.根据权利要求1至4中任一项所述的方法，其中当状态序列已达到最大长度时或者当在所确定的后续状态中达到控制目标时，结束所述模拟过程。

6.根据权利要求1至5中任一项所述的方法，其中所述损失函数是用于Actor-Critic-RL方法或深度Q学习方法的损失函数。

7.根据权利要求1至6中任一项所述的方法，其中在迭代的过程中从初始值开始减小所述最大数量。

8.设备，所述设备被设立用于执行根据权利要求1至7中任一项所述的方法。

9.控制方法，所述控制方法具有基于根据权利要求1至7中任一项训练的控制策略来控制软件或硬件代理。

10.软件或硬件代理、尤其是机器人，具有