[发明专利]一种基于蒙特卡洛树搜索的自动驾驶纵向决策方法在审
申请号: | 202310199783.X | 申请日: | 2023-03-05 |
公开(公告)号: | CN116341662A | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 李增宝;董未名;张羽 | 申请(专利权)人: | 郑州大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06F17/15 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 蒙特卡洛树 搜索 自动 驾驶 纵向 决策 方法 | ||
1.一种基于蒙特卡洛树搜索的自动驾驶纵向决策方法,其特征在于,包括以下步骤:
步骤一:构建人工神经网络并对其训练,以将训练好模型的的推理结果应用于蒙特卡洛树搜索中UCB公式的改进。
步骤二:在采样后的ST图中基于神经网络得到的先验知识(即si=p(ti)离散函数)进行蒙特卡洛树搜索,以得到最优的N条轨迹。
步骤三:基于蒙特卡洛树搜索生成的N条最优轨迹,确定纵向决策。
2.根据权利要求1所述的方法,其特征在于,所述的构建人工神经网络并对其训练,以将训练好模型的推理结果应用于蒙特卡洛树搜索中UCB公式的改进包括:
所述的人工神经网络包括输入层,隐藏层,输出层;
输入层为对采样后ST图进行降维处理后并且加上自动驾驶车辆速度的(n+1)维向量;
隐藏层用于对表示采样、降维后ST图和自动驾驶车辆速度的(n+1)维向量特征的提取和处理;
输出层为经过神经网络推理后的预估轨迹,即si=p(ti)。
所述对蒙特卡洛树搜索中UCB公式的改进包括:
利用神经网络推理得到的si=p(ti)的离散函数,对UCB公式进行改进,记为UCBg,UCBg公式具体如下所示:
其中C、D、σ为可调参数,xi为所有经过当前节点轨迹代价总和的均值,ni为当前节点被探索过的次数,N为其父节点被探索过的次数。
g(s;p(t),σ)为数学期望为p(t),方差为σ^2高斯分布的概率密度函数,其函数如下所示:
代入UCBg公式中,UCBg公式如下所示:
3.根据权利要求1所述的方法,其特征在于,所述的在采样后的ST图上进行蒙特卡洛树搜索,以得到最优的N条轨迹,包括,蒙特卡洛树一次迭代过程分为选择、扩展、模拟和回溯四个阶段,在采样后的ST图上进行一定次数的迭代以得到最优的N条轨迹。
其中,蒙特卡洛树搜索的选择阶段利用UCBg公式进行选择,以均衡探索、利用以及通过神经网络推理所得到的先验知识,即si=p(ti)离散函数。
蒙特卡洛树模拟阶段亦可利用神经网络推理得到的si=p(ti)离散函数,基于期望p(ti)和方差σ^2通过高斯采样得到下一时刻s值的概率分布si=N(p(ti),σ),并从概率分布中采样获取下一时刻的s值用于蒙特卡洛树搜索的模拟阶段。
4.根据权利要求1所述的方法,其特征在于,基于蒙特卡洛树搜索生成的N条最优轨迹,确定纵向决策,包括,若采样后ST图中的最优位于障碍物轨迹投影的上方,则对该障碍物做抢行决策,若在障碍物轨迹投影的下方,则对该障碍物做让行决策;所述在采样后ST图中生成的最优轨迹亦可通过二次规划(quadratic programming)生成一条平滑的速度曲线以用于速度规划。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310199783.X/1.html,转载请声明来源钻瓜专利网。