[发明专利]一种基于深度强化学习的防碰撞控制方法有效

专利信息
申请号: 201910283506.0 申请日: 2019-04-10
公开(公告)号: CN110027553B 公开(公告)日: 2020-10-23
发明(设计)人: 谢国涛;王静雅;胡满江;秦晓辉;王晓伟;徐彪;秦兆博;孙宁;钟志华 申请(专利权)人: 湖南大学
主分类号: B60W30/08 分类号: B60W30/08
代理公司: 北京汇智胜知识产权代理事务所(普通合伙) 11346 代理人: 石辉
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 碰撞 控制 方法
【权利要求书】:

1.一种基于深度强化学习的防碰撞控制方法,其特征在于,采用深度确定性策略梯度方法进行深度强化学习,该方法包括如下步骤:

步骤1,提取本车参数和环境车辆参数;三车道情况下,环境车辆包括前车、左车和右车,其中,所述前车为与所述本车行驶在同一车道上、且在纵向位于所述本车前方的车辆,所述左车为行驶在所述本车所在车道的相邻左侧车道上、且在纵向位于所述本车前方的车辆,所述右车为行驶在所述本车所在车道的相邻右侧车道上、且在纵向位于所述本车前方的车辆;

步骤2,利用步骤1提取得到的本车参数和环境车辆参数,构建虚拟环境模型;

步骤3,根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型,定义所述深度确定性策略梯度方法的基础参数,所述基础参数包括:虚拟环境模型在当前时刻t的状态st、虚拟环境模型在下一时刻t+1的状态st+1、所述本车(1)基于st能够进行防碰撞控制的动作at、动作at对应的回报值rt;

步骤4,根据步骤3定义好的基础参数,采用深度强化学习中的神经网络构建防碰撞控制决策系统,所述防碰撞控制决策系统包括策略网络(5)和评价网络(6),所述策略网络(5)的输入是状态s,输出是动作a;所述评价网络(6)的输入是状态s和动作a,输出是Q值:Q(s,a);

步骤5,训练所述策略网络(5)和评价网络(6),得到所述防碰撞控制决策系统:首先,设置所述虚拟环境模型的当前状态表示为st,作为所述策略网络(5)的输入,并在所述策略网络(5)上加高斯扰动,所述策略网络(5)输出一个动作at;在本车(1)接收到所述动作at后,所述评价网络(6)生成对所述动作at评价的回报值rt,同时检测获得下一时刻状态st+1;然后,根据所述回报值rt更新所述评价网络(6)的参数,并沿所述评价网络(6)建议的方向更新所述策略网络(5)的参数;

所述步骤2中,所述虚拟环境模型是一个三车道模型,包括本车(1),与所述本车(1)行驶在同一车道上、且在纵向位于所述本车(1)前方的前车(2),行驶在所述本车(1)所在车道的相邻左侧车道上、且在纵向位于本车1前方的左车(3),以及行驶在所述本车(1)所在车道的相邻右侧车道上、且在纵向位于所述本车(1)前方的右车(4);

若动作at之后能够使得所述本车(1)的状态更加安全,则回报值rt是奖赏;否则,回报值rt是惩罚,使得所述防碰撞控制决策系统对上一次执行的动作有一定的判断,rt具体定义为所述前车(2)的回报值rF,t、左车(3)的回报值rL,t、和右车(4)的回报值rR,t之和,并且,当所述本车(1)位于左侧车道时不考虑rL,t,当所述本车(1)位于右侧车道时不考虑rR,t

对于所述前车(2),同车道虚拟环境模型具体定义为下式(2):

式(2)中:dF,y,t为t时刻所述本车(1)与所述前车(2)之间的纵向距离;dF,y,t+1为t+1时刻所述本车(1)与所述前车(2)之间的纵向距离;DF为t+1时刻所述本车(1)与所述前车(2)之间的纵向最佳车距;ΔdF是所述本车(1)在动作at前后与所述前车(2)之间的纵向距离的变化量,ΔdF=dF,y,t+1-dF,y,t;ΔvF是所述本车(1)在动作at前后与所述前车(2)之间的纵向相对速度的变化量,ΔvF=(vF,y,t+1-vy,t+1)-(vF,y,t-vy,t);vF,y,t为t时刻所述前车(2)的纵向速度;vF,y,t+1为t+1时刻所述前车(2)的纵向速度;vy,t为t时刻所述本车(1)的纵向速度;vy,t+1为t+1时刻所述本车(1)的纵向速度;μF,1和μF,2是在(-100,100)范围之内的经验因子;εd为t+1时刻所述本车(1)与所述前车(2)实际间距在最佳间距DF附近的邻域;

对于所述左车(3),左侧车道虚拟环境模型具体定义为下式(3):

式(3)中:θL,t+1为t+1时刻所述本车(1)向左的横摆角;Δv是所述本车(1)在时刻t和时刻t+1的速度变化量;dL,t+1是时刻t+1所述本车(1)与左车(3)之间的直线距离;μL是在(-100,100)范围之内的经验因子;εθ为θL,t+1附近的邻域;

对于所述右车(4),右侧车道虚拟环境模型具体定义为下式(4):

式(4)中:θR,t+1为t+1时刻所述本车(1)向右的横摆角;Δv是所述本车(1)在时刻t和时刻t+1的速度变化量;dR,t+1是时刻t+1所述本车(1)与右车(4)之间的直线距离;μR是在(-100,100)范围之内的经验因子;εθ为θR,t+1附近的邻域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910283506.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top