[发明专利]一种轨迹规划的方法及装置有效
申请号: | 202010239165.X | 申请日: | 2020-03-31 |
公开(公告)号: | CN111123957B | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 白钰;刘思威;李潇;许笑寒;任冬淳 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05D1/00 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 轨迹 规划 方法 装置 | ||
本说明书公开了一种轨迹规划的方法及装置,可获取无人设备轨迹规划所需的状态信息,并通过父规划模型确定状态信息对应的若干个待定行驶决策和每个待定行驶决策的决策价值,选择最大决策价值对应的待定行驶决策作为状态信息对应的行驶决策,并通过选择的行驶决策对应的子规划模型,可确定实现行驶决策的规划动作,根据规划动作,规划无人设备的轨迹。本说明书提供的轨迹规划方法适用于现有技术中的所有场景,并且无需确定所属的场景类型,解决了现有技术中场景划分不够准确合理的问题,达到了无人设备在实现最大决策价值对应的行驶决策时,规划出较好的轨迹的有益效果。
技术领域
本申请涉及无人驾驶技术领域,尤其涉及一种轨迹规划的方法及装置。
背景技术
随着科技的不断进步,无人驾驶技术逐渐成熟,利用无人设备代替人工运输成为主流趋势。
无人设备在运行中需要作出轨迹规划。在无人设备的轨迹规划过程中,可预先将无人设备的运行环境划分为若干种场景,例如城市道路场景、园区场景等,其中,不同的场景对应不同的轨迹规划算法。无人设备根据传感器采集的数据,确定无人设备所在的位置以及周围的环境等信息,根据位置以及周围的环境信息,识别出无人设备的运行环境所属的场景类型,根据识别出的场景类型对应的轨迹规划算法,规划无人设备的轨迹。
然而,现有技术中,在对无人设备的运行环境划分场景时,由于现实环境的复杂性,导致场景划分不够准确合理,使得无人设备的轨迹规划比较困难。
发明内容
本说明书实施例提供一种轨迹规划的方法及装置,以部分解决现有技术存在的上述问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种轨迹规划的方法,所述方法包括:
获取无人设备轨迹规划所需的状态信息,其中,所述状态信息包括所述无人设备周围的环境信息、所述无人设备的位姿信息;
根据所述状态信息,通过预先训练的父规划模型,确定所述状态信息对应的若干个待定行驶决策、以及每个待定行驶决策的决策价值;
在各待定行驶决策中,将最大决策价值对应的待定行驶决策作为所述状态信息对应的行驶决策,并且,在每个待定行驶决策对应的预先训练的子规划模型中,将所述行驶决策对应的子规划模型作为指定子规划模型;
根据所述状态信息以及所述行驶决策,通过所述指定子规划模型,确定实现所述行驶决策的规划动作;
根据所述规划动作,规划所述无人设备的轨迹。
可选地,所述父规划模型为分级强化学习模型中的父级强化学习模型;所述子规划模型为所述分级强化学习模型中的子级强化学习模型;
确定每个待定行驶决策的决策价值,具体包括:
针对每个待定行驶决策,根据所述状态信息以及该待定行驶决策,确定所述父级强化学习模型实现该待定行驶决策的外反馈总奖励;
根据所述外反馈总奖励,确定该待定行驶决策的决策价值。
可选地,确定所述父级强化学习模型实现该待定行驶决策的外反馈总奖励,具体包括:
在所述无人设备实现该待定行驶决策的情况下,针对该待定行驶决策对应的子级强化学习模型确定的每个规划动作,确定所述无人设备执行该规划动作的第一外反馈奖励;
根据该待定行驶决策对应的子级强化学习模型确定的每个规划动作的第一外反馈奖励,确定各规划动作的第一外反馈奖励的和值,作为该待定行驶决策的外反馈总奖励。
可选地,所述子规划模型为分级强化学习模型中的子级强化学习模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010239165.X/2.html,转载请声明来源钻瓜专利网。