[发明专利]一种轨迹规划的方法及装置有效

申请号：	202010239165.X	申请日：	2020-03-31
公开（公告）号：	CN111123957B	公开（公告）日：	2020-09-04
发明（设计）人：	白钰;刘思威;李潇;许笑寒;任冬淳	申请（专利权）人：	北京三快在线科技有限公司
主分类号：	G05D1/02	分类号：	G05D1/02;G05D1/00
代理公司：	北京曼威知识产权代理有限公司 11709	代理人：	方志炜
地址：	100080 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种轨迹规划方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种轨迹规划的方法，其特征在于，所述方法包括：

获取无人设备轨迹规划所需的状态信息，其中，所述状态信息包括所述无人设备周围的环境信息、所述无人设备的位姿信息；

根据所述状态信息，通过预先训练的父规划模型，确定所述状态信息对应的若干个待定行驶决策、以及每个待定行驶决策的决策价值；

在各待定行驶决策中，将最大决策价值对应的待定行驶决策作为所述状态信息对应的行驶决策，并且，在每个待定行驶决策对应的预先训练的子规划模型中，将所述行驶决策对应的子规划模型作为指定子规划模型；

根据所述状态信息以及所述行驶决策，通过所述指定子规划模型，确定实现所述行驶决策的规划动作；

根据所述规划动作，规划所述无人设备的轨迹；

其中，预先训练父规划模型以及子规划模型，包括：

获取样本状态信息，并初始化待训练父规划模型的近似参数以及待训练子规划模型的近似参数，根据所述样本状态信息，确定经验回放样本，以及所述经验回放样本对应的样本决策价值、样本动作价值，将所述样本状态信息输入所述待训练父规划模型，以使所述待训练父规划模型确定预测决策价值，将所述样本状态信息以及所述待训练父规划模型确定的预测行驶决策输入所述待训练子规划模型，得到所述子规划模型确定的预测动作价值，根据所述样本决策价值以及所述预测决策价值，确定第一损失，根据所述样本动作价值以及所述预测动作价值，确定第二损失，根据所述第一损失以及所述第二损失，确定损失，以损失最小化为目标，更新所述待训练父规划模型的近似参数以及所述待训练子规划模型的近似参数，对所述待训练父规划模型以及所述待训练子规划模型进行训练。

2.如权利要求1所述的方法，其特征在于，所述父规划模型为分级强化学习模型中的父级强化学习模型；所述子规划模型为所述分级强化学习模型中的子级强化学习模型；

确定每个待定行驶决策的决策价值，具体包括：

针对每个待定行驶决策，根据所述状态信息以及该待定行驶决策，确定所述父级强化学习模型实现该待定行驶决策的外反馈总奖励；

根据所述外反馈总奖励，确定该待定行驶决策的决策价值。

3.如权利要求2所述的方法，其特征在于，确定所述父级强化学习模型实现该待定行驶决策的外反馈总奖励，具体包括：

在所述无人设备实现该待定行驶决策的情况下，针对该待定行驶决策对应的子级强化学习模型确定的每个规划动作，确定所述无人设备执行该规划动作的第一外反馈奖励；

根据该待定行驶决策对应的子级强化学习模型确定的每个规划动作的第一外反馈奖励，确定各规划动作的第一外反馈奖励的和值，作为该待定行驶决策的外反馈总奖励。

4.如权利要求1所述的方法，其特征在于，所述子规划模型为分级强化学习模型中的子级强化学习模型；

根据所述状态信息以及所述行驶决策，通过所述指定子规划模型，确定实现所述行驶决策的规划动作，具体包括：

通过所述指定子级强化学习模型，确定所述状态信息对应的若干个待定规划动作；

针对每个待定规划动作，根据所述状态信息、所述行驶决策以及该待定规划动作，确定该待定规划动作的动作价值；

将最大动作价值对应的待定规划动作，作为所述状态信息对应的规划动作；