[发明专利]支持运输工具或机器人的机动动作规划的方法和设备在审
申请号: | 202110204659.9 | 申请日: | 2021-02-24 |
公开(公告)号: | CN113297783A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | M·黑尔比希;J·赫特;F·阿尔-哈费茨 | 申请(专利权)人: | 大众汽车股份公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08;G06N7/00;G06F111/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘晗曦;陈岚 |
地址: | 德国沃*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 运输工具 机器人 机动 动作 规划 方法 设备 | ||
1.一种用于支持自动驾驶运输工具(50)或机器人的机动动作规划(33)的方法,
其中借助马尔可夫决策问题以离散形式描述所述运输工具(50)或所述机器人的环境的状态空间(10),
其中借助动态编程从所述状态空间(10)中的离散状态(11)出发确定针对离散动作(At)的最佳动作值(Qx),
其中借助强化学习方法来学习映射(20),其中所述映射具有所述状态空间(10)中的状态(11)作为输入值并具有所述状态空间(10)中的针对动作(At)的动作值(Qx)作为输出值,
其中在此情况下基于借助动态编程确定的最佳动作值(Qx)对强化学习代理进行初始化,以及
其中针对机动动作规划(33)提供所学习的映射(20)。
2.根据权利要求1所述的方法,其特征在于,所述映射(20)具有表格形式。
3.根据权利要求1所述的方法,其特征在于,借助神经网络(40)提供所述映射(20),其中为了初始化,从所确定的最佳动作值(Qx)出发通过受监视学习的方式训练所述神经网络(40)。
4.根据前述权利要求中任一项所述的方法,其特征在于,所述状态空间(10)中的所述离散状态(11)是均匀分布的或以均匀分布的方式被选择。
5.根据前述权利要求中任一项所述的方法,其特征在于,所述状态(11)是如此选择的或被如此选择,使得所述状态覆盖整个状态空间(10)。
6.根据前述权利要求中任一项所述的方法,其特征在于,所述状态空间(10)中的所述离散状态(11)至少部分地借助仿真(41)产生。
7.根据前述权利要求中任一项所述的方法,其特征在于,在所述强化学习时,至少部分地借助仿真(41)产生所述状态空间(10)中的状态(11)。
8.一种用于针对自动驾驶运输工具(50)或机器人规划机动动作的方法,其中,按照根据权利要求1至7中任一项所述的方法所确定的映射(20)在机动动作规划(33)中被使用。
9.一种用于支持自动驾驶运输工具(50)或机器人的机动动作规划(33)的设备(1),所述设备包括:
数据处理装置(2),
其中所述数据处理装置(2)被设立用于,借助马尔可夫决策问题描述所述运输工具(50)或所述机器人的环境的离散状态空间(10),借助动态编程从所述状态空间(10)中的离散状态(11)出发确定针对离散动作(At)的最佳动作值(Qx),
为了学习映射(20)而使用强化学习方法,其中所述映射(20)具有所述状态空间(10)中的状态(11)作为输入值并具有所述状态空间(10)中的针对动作(At)的动作值(Qx)作为输出值,和
在此情况下基于借助动态编程确定的最佳动作值(Qx)对强化学习代理进行初始化,以及针对机动动作规划(33)提供所学习的映射(20)。
10.一种计算机程序,所述计算机程序包括指令,当由计算机执行所述计算机程序时,所述指令促使所述计算机执行根据权利要求1至8中任一项所述的方法的方法步骤,或者数据载体信号,所述数据载体信号传输这样的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大众汽车股份公司,未经大众汽车股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110204659.9/1.html,转载请声明来源钻瓜专利网。