[发明专利]一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法在审
申请号: | 202210067361.2 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114407925A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 蔡英凤;杨绍卿;滕成龙;刘泽;孙晓强;陈龙;王海 | 申请(专利权)人: | 江苏大学 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 鸟瞰图 策略 梯度 算法 自动 驾驶 轨迹 规划系统 方法 | ||
1.一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,包括:基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块;
所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块:根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线,利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的特征鸟瞰图;利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;为纵向位移s关于时间t的一阶导,为纵向位移s关于时间t的二阶导数;l为横向位移;为横向位移关于时间t的二阶导数;根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral;将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块;
所述轨迹规划策略网络πθ(z,a)包括卷积(CNN)特征提取网络和全连接网络(FCN),其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数;
所述轨迹规划策略网络πθ(z,a)从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory,交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络,策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。
2.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t,其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;
所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。
3.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络πθ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法实现优化更新;
所述奖励函数R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励,Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210067361.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语句简化方法、装置、设备、和计算机可读存储介质
- 下一篇:一种农业清理装置