[发明专利]一种基于深度强化学习的防碰撞控制方法有效
申请号: | 201910283506.0 | 申请日: | 2019-04-10 |
公开(公告)号: | CN110027553B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 谢国涛;王静雅;胡满江;秦晓辉;王晓伟;徐彪;秦兆博;孙宁;钟志华 | 申请(专利权)人: | 湖南大学 |
主分类号: | B60W30/08 | 分类号: | B60W30/08 |
代理公司: | 北京汇智胜知识产权代理事务所(普通合伙) 11346 | 代理人: | 石辉 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 碰撞 控制 方法 | ||
1.一种基于深度强化学习的防碰撞控制方法,其特征在于,采用深度确定性策略梯度方法进行深度强化学习,该方法包括如下步骤:
步骤1,提取本车参数和环境车辆参数;三车道情况下,环境车辆包括前车、左车和右车,其中,所述前车为与所述本车行驶在同一车道上、且在纵向位于所述本车前方的车辆,所述左车为行驶在所述本车所在车道的相邻左侧车道上、且在纵向位于所述本车前方的车辆,所述右车为行驶在所述本车所在车道的相邻右侧车道上、且在纵向位于所述本车前方的车辆;
步骤2,利用步骤1提取得到的本车参数和环境车辆参数,构建虚拟环境模型;
步骤3,根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型,定义所述深度确定性策略梯度方法的基础参数,所述基础参数包括:虚拟环境模型在当前时刻t的状态st、虚拟环境模型在下一时刻t+1的状态st+1、所述本车(1)基于st能够进行防碰撞控制的动作at、动作at对应的回报值rt;
步骤4,根据步骤3定义好的基础参数,采用深度强化学习中的神经网络构建防碰撞控制决策系统,所述防碰撞控制决策系统包括策略网络(5)和评价网络(6),所述策略网络(5)的输入是状态s,输出是动作a;所述评价网络(6)的输入是状态s和动作a,输出是Q值:Q(s,a);
步骤5,训练所述策略网络(5)和评价网络(6),得到所述防碰撞控制决策系统:首先,设置所述虚拟环境模型的当前状态表示为st,作为所述策略网络(5)的输入,并在所述策略网络(5)上加高斯扰动,所述策略网络(5)输出一个动作at;在本车(1)接收到所述动作at后,所述评价网络(6)生成对所述动作at评价的回报值rt,同时检测获得下一时刻状态st+1;然后,根据所述回报值rt更新所述评价网络(6)的参数,并沿所述评价网络(6)建议的方向更新所述策略网络(5)的参数;
所述步骤2中,所述虚拟环境模型是一个三车道模型,包括本车(1),与所述本车(1)行驶在同一车道上、且在纵向位于所述本车(1)前方的前车(2),行驶在所述本车(1)所在车道的相邻左侧车道上、且在纵向位于本车1前方的左车(3),以及行驶在所述本车(1)所在车道的相邻右侧车道上、且在纵向位于所述本车(1)前方的右车(4);
若动作at之后能够使得所述本车(1)的状态更加安全,则回报值rt是奖赏;否则,回报值rt是惩罚,使得所述防碰撞控制决策系统对上一次执行的动作有一定的判断,rt具体定义为所述前车(2)的回报值rF,t、左车(3)的回报值rL,t、和右车(4)的回报值rR,t之和,并且,当所述本车(1)位于左侧车道时不考虑rL,t,当所述本车(1)位于右侧车道时不考虑rR,t;
对于所述前车(2),同车道虚拟环境模型具体定义为下式(2):
式(2)中:dF,y,t为t时刻所述本车(1)与所述前车(2)之间的纵向距离;dF,y,t+1为t+1时刻所述本车(1)与所述前车(2)之间的纵向距离;DF为t+1时刻所述本车(1)与所述前车(2)之间的纵向最佳车距;ΔdF是所述本车(1)在动作at前后与所述前车(2)之间的纵向距离的变化量,ΔdF=dF,y,t+1-dF,y,t;ΔvF是所述本车(1)在动作at前后与所述前车(2)之间的纵向相对速度的变化量,ΔvF=(vF,y,t+1-vy,t+1)-(vF,y,t-vy,t);vF,y,t为t时刻所述前车(2)的纵向速度;vF,y,t+1为t+1时刻所述前车(2)的纵向速度;vy,t为t时刻所述本车(1)的纵向速度;vy,t+1为t+1时刻所述本车(1)的纵向速度;μF,1和μF,2是在(-100,100)范围之内的经验因子;εd为t+1时刻所述本车(1)与所述前车(2)实际间距在最佳间距DF附近的邻域;
对于所述左车(3),左侧车道虚拟环境模型具体定义为下式(3):
式(3)中:θL,t+1为t+1时刻所述本车(1)向左的横摆角;Δv是所述本车(1)在时刻t和时刻t+1的速度变化量;dL,t+1是时刻t+1所述本车(1)与左车(3)之间的直线距离;μL是在(-100,100)范围之内的经验因子;εθ为θL,t+1附近的邻域;
对于所述右车(4),右侧车道虚拟环境模型具体定义为下式(4):
式(4)中:θR,t+1为t+1时刻所述本车(1)向右的横摆角;Δv是所述本车(1)在时刻t和时刻t+1的速度变化量;dR,t+1是时刻t+1所述本车(1)与右车(4)之间的直线距离;μR是在(-100,100)范围之内的经验因子;εθ为θR,t+1附近的邻域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910283506.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像显示装置
- 下一篇:车辆避撞控制方法及系统