[发明专利]基于模仿学习初始化的强化学习换道行为规划方法及系统在审
申请号: | 202210602932.8 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114954498A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 郑南宁;史佳敏;张唐一可;詹钧翔;沈艳晴;辛景民;陈仕韬 | 申请(专利权)人: | 西安交通大学 |
主分类号: | B60W50/00 | 分类号: | B60W50/00;B60W60/00;G06V20/58;G06V10/82 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模仿 学习 初始化 强化 道行 规划 方法 系统 | ||
1.一种基于模仿学习初始化的强化学习换道行为规划方法,其特征在于,包括以下步骤:
S1,构建引入周围车辆模糊速度和变形位姿的栅格图Mt,将交通规则和道路状况信息合并使用向量Vt表示;
S2,使用模仿学习初始化换道决策行为规划πb,将所述栅格图Mt和所述向量Vt连接输入模仿学习DAgger网络,输出车辆的高级决策;
S3,初始化PPO算法中Actor网络,通过SUMO仿真场景进行交互收集多组驾驶轨迹数据,在混合奖励机制的作用下,PPO算法优化换道决策行为规划,得到优化后的高级决策bk;
所述混合奖励机制根据所选择的策略,自动触发对应的奖励函数;具体为,基于换道驾驶任务,将t时刻自动驾驶车辆和交通状况的状态定义为状态st,由行为规划π根据st,得到决策命令ut,强化学习换道决策行为规划采取ut,过渡到t+1时刻状态st+1,并得到奖励rt,以此累积到换道决策行为规划完成特定任务,而行为规划π必须调整自己的网络参数θ,得到长期的收益Q(st,bt),
基于强化学习PPO算法进行行为规划π,输入强化学习换道决策行为规划的状态信息,将输出bk∈{left_change,keep,right_change,speedup,speeddown}定义为高级决策,如果bk与道路信息冲突,则由行为规划π重新决策;其中,将时间线划分成多个固定的时间段,在每个时间段[tk,tk+1]中,bk将维持不变,时间跨度比控制命令长,将[tk,tk+1]时间段中的控制命令累积奖励代替时的决策奖励。
2.根据权利要求1所述的方法,其特征在于,S1中构建引入周围车辆模糊速度和变形位姿的栅格图Mt具体如下:
周围交通参与者的位姿信息为:多个距离传感器的信息整合到以自动驾驶车辆为中心的周围交通参与者的位置信息的栅格地图中,在每个栅格中,如果有交通参与者对象存在,其值为1,否则为0;
周围交通参与者的速度信息为:参考自动驾驶车辆的实时速度和理想线速度,将周围交通车辆速度分为7个模糊集合:{NB,NM,NS,Z,PS,PM,PB},并将所述7个模糊集合以渐变色形式显示投射到栅格地图Mt,统一表示周围交通车辆的位姿信息和速度信息。
3.根据权利要求2所述的方法,其特征在于,S1中引入周围车辆时,考虑前后80米传感器范围内的所有车辆;对栅格地图进行改进,将弯道栅格地图统一变形为直道。
4.根据权利要求1所述的方法,其特征在于,S1中从高精地图的道路轮廓和信息图层,提取道路轮廓和道路方向,根据线路标识和自动驾驶车辆当前的定位信息,使自动驾驶车辆学会跟踪车道线,再从高精地图中提取当前的道路信息。
5.根据权利要求1所述的方法,其特征在于,S2输出的高级决策包括左变道行为、右变道行为、加速行为、匀速行为或减速行为。
6.根据权利要求1所述的方法,其特征在于,所述PPO算法包括Actor网络和Critic网络,Actor网络和Critic网络除了输出不同,其余结构相同;输入为周围交通参与者的模糊速度和变形位姿的栅格图、交通规则和道路方向的向量;栅格图经过3个卷积层处理,再由一个全连接网络平坦化,交通规则和道路方向的向量分别通过全连接网络处理;Actor网络和Critic网络连接并经过2个全连接网络输出,Actor网络最后经过SoftMax函数归一化输出高级决策行为,Critic网络最后一层是直接输出一个value值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210602932.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现芯片通讯的控制电路、系统及方法
- 下一篇:一种具有防摔功能的护目镜