[发明专利]一种轨迹规划的方法及装置有效
申请号: | 202010239165.X | 申请日: | 2020-03-31 |
公开(公告)号: | CN111123957B | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 白钰;刘思威;李潇;许笑寒;任冬淳 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05D1/00 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 轨迹 规划 方法 装置 | ||
1.一种轨迹规划的方法,其特征在于,所述方法包括:
获取无人设备轨迹规划所需的状态信息,其中,所述状态信息包括所述无人设备周围的环境信息、所述无人设备的位姿信息;
根据所述状态信息,通过预先训练的父规划模型,确定所述状态信息对应的若干个待定行驶决策、以及每个待定行驶决策的决策价值;
在各待定行驶决策中,将最大决策价值对应的待定行驶决策作为所述状态信息对应的行驶决策,并且,在每个待定行驶决策对应的预先训练的子规划模型中,将所述行驶决策对应的子规划模型作为指定子规划模型;
根据所述状态信息以及所述行驶决策,通过所述指定子规划模型,确定实现所述行驶决策的规划动作;
根据所述规划动作,规划所述无人设备的轨迹;
其中,预先训练父规划模型以及子规划模型,包括:
获取样本状态信息,并初始化待训练父规划模型的近似参数以及待训练子规划模型的近似参数,根据所述样本状态信息,确定经验回放样本,以及所述经验回放样本对应的样本决策价值、样本动作价值,将所述样本状态信息输入所述待训练父规划模型,以使所述待训练父规划模型确定预测决策价值,将所述样本状态信息以及所述待训练父规划模型确定的预测行驶决策输入所述待训练子规划模型,得到所述子规划模型确定的预测动作价值,根据所述样本决策价值以及所述预测决策价值,确定第一损失,根据所述样本动作价值以及所述预测动作价值,确定第二损失,根据所述第一损失以及所述第二损失,确定损失,以损失最小化为目标,更新所述待训练父规划模型的近似参数以及所述待训练子规划模型的近似参数,对所述待训练父规划模型以及所述待训练子规划模型进行训练。
2.如权利要求1所述的方法,其特征在于,所述父规划模型为分级强化学习模型中的父级强化学习模型;所述子规划模型为所述分级强化学习模型中的子级强化学习模型;
确定每个待定行驶决策的决策价值,具体包括:
针对每个待定行驶决策,根据所述状态信息以及该待定行驶决策,确定所述父级强化学习模型实现该待定行驶决策的外反馈总奖励;
根据所述外反馈总奖励,确定该待定行驶决策的决策价值。
3.如权利要求2所述的方法,其特征在于,确定所述父级强化学习模型实现该待定行驶决策的外反馈总奖励,具体包括:
在所述无人设备实现该待定行驶决策的情况下,针对该待定行驶决策对应的子级强化学习模型确定的每个规划动作,确定所述无人设备执行该规划动作的第一外反馈奖励;
根据该待定行驶决策对应的子级强化学习模型确定的每个规划动作的第一外反馈奖励,确定各规划动作的第一外反馈奖励的和值,作为该待定行驶决策的外反馈总奖励。
4.如权利要求1所述的方法,其特征在于,所述子规划模型为分级强化学习模型中的子级强化学习模型;
根据所述状态信息以及所述行驶决策,通过所述指定子规划模型,确定实现所述行驶决策的规划动作,具体包括:
通过所述指定子级强化学习模型,确定所述状态信息对应的若干个待定规划动作;
针对每个待定规划动作,根据所述状态信息、所述行驶决策以及该待定规划动作,确定该待定规划动作的动作价值;
将最大动作价值对应的待定规划动作,作为所述状态信息对应的规划动作;
在所述无人设备执行所述状态信息对应的规划动作的情况下,若未实现所述行驶决策,则根据所述状态信息对应的规划动作,预测所述无人设备执行所述状态信息对应的规划动作之后的状态信息作为更新状态信息,并确定所述更新状态信息对应的规划动作,直到实现所述行驶决策为止;
将所述状态信息对应的规划动作、以及若干个更新状态信息对应的规划动作,作为实现所述行驶决策的规划动作。
5.如权利要求4所述的方法,其特征在于,根据所述状态信息、所述行驶决策以及该待定规划动作,确定该待定规划动作的动作价值,具体包括:
根据所述状态信息、所述行驶决策以及该待定规划动作,确定该待定规划动作的内反馈奖励;
将所述更新状态信息对应的规划动作的动作价值,作为更新动作价值;
根据预设的衰减权重,确定所述衰减权重与所述更新动作价值的乘积与所述内反馈奖励的和值,作为该待定规划动作的动作价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010239165.X/1.html,转载请声明来源钻瓜专利网。