[发明专利]一种基于深度强化学习的防碰撞控制方法有效

申请号：	201910283506.0	申请日：	2019-04-10
公开（公告）号：	CN110027553B	公开（公告）日：	2020-10-23
发明（设计）人：	谢国涛;王静雅;胡满江;秦晓辉;王晓伟;徐彪;秦兆博;孙宁;钟志华	申请（专利权）人：	湖南大学
主分类号：	B60W30/08	分类号：	B60W30/08
代理公司：	北京汇智胜知识产权代理事务所(普通合伙) 11346	代理人：	石辉
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习碰撞控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的防碰撞控制方法，其特征在于，采用深度确定性策略梯度方法进行深度强化学习，该方法包括如下步骤：

步骤1，提取本车参数和环境车辆参数；三车道情况下，环境车辆包括前车、左车和右车，其中，所述前车为与所述本车行驶在同一车道上、且在纵向位于所述本车前方的车辆，所述左车为行驶在所述本车所在车道的相邻左侧车道上、且在纵向位于所述本车前方的车辆，所述右车为行驶在所述本车所在车道的相邻右侧车道上、且在纵向位于所述本车前方的车辆；

步骤2，利用步骤1提取得到的本车参数和环境车辆参数，构建虚拟环境模型；

步骤3，根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型，定义所述深度确定性策略梯度方法的基础参数，所述基础参数包括：虚拟环境模型在当前时刻t的状态s_t、虚拟环境模型在下一时刻t+1的状态s_t+1、所述本车(1)基于s_t能够进行防碰撞控制的动作a_t、动作a_t对应的回报值rt；

步骤4，根据步骤3定义好的基础参数，采用深度强化学习中的神经网络构建防碰撞控制决策系统，所述防碰撞控制决策系统包括策略网络(5)和评价网络(6)，所述策略网络(5)的输入是状态s，输出是动作a；所述评价网络(6)的输入是状态s和动作a，输出是Q值：Q(s，a)；

步骤5，训练所述策略网络(5)和评价网络(6)，得到所述防碰撞控制决策系统：首先，设置所述虚拟环境模型的当前状态表示为s_t，作为所述策略网络(5)的输入，并在所述策略网络(5)上加高斯扰动，所述策略网络(5)输出一个动作a_t；在本车(1)接收到所述动作a_t后，所述评价网络(6)生成对所述动作a_t评价的回报值r_t，同时检测获得下一时刻状态s_t+1；然后，根据所述回报值r_t更新所述评价网络(6)的参数，并沿所述评价网络(6)建议的方向更新所述策略网络(5)的参数；

所述步骤2中，所述虚拟环境模型是一个三车道模型，包括本车(1)，与所述本车(1)行驶在同一车道上、且在纵向位于所述本车(1)前方的前车(2)，行驶在所述本车(1)所在车道的相邻左侧车道上、且在纵向位于本车1前方的左车(3)，以及行驶在所述本车(1)所在车道的相邻右侧车道上、且在纵向位于所述本车(1)前方的右车(4)；

若动作a_t之后能够使得所述本车(1)的状态更加安全，则回报值r_t是奖赏；否则，回报值r_t是惩罚，使得所述防碰撞控制决策系统对上一次执行的动作有一定的判断，r_t具体定义为所述前车(2)的回报值r_F，t、左车(3)的回报值r_L，t、和右车(4)的回报值r_R，t之和，并且，当所述本车(1)位于左侧车道时不考虑r_L，t，当所述本车(1)位于右侧车道时不考虑r_R，t；

对于所述前车(2)，同车道虚拟环境模型具体定义为下式(2)：

式(2)中：d_F，y，t为t时刻所述本车(1)与所述前车(2)之间的纵向距离；d_F，y，t+1为t+1时刻所述本车(1)与所述前车(2)之间的纵向距离；D_F为t+1时刻所述本车(1)与所述前车(2)之间的纵向最佳车距；Δd_F是所述本车(1)在动作a_t前后与所述前车(2)之间的纵向距离的变化量，Δd_F＝d_F，y，t+1-d_F，y，t；Δv_F是所述本车(1)在动作a_t前后与所述前车(2)之间的纵向相对速度的变化量，Δv_F＝(v_F，y，t+1-v_y，t+1)-(v_F，y，t-v_y，t)；v_F，y，t为t时刻所述前车(2)的纵向速度；v_F，y，t+1为t+1时刻所述前车(2)的纵向速度；v_y，t为t时刻所述本车(1)的纵向速度；v_y，t+1为t+1时刻所述本车(1)的纵向速度；μ_F，1和μ_F，2是在(-100，100)范围之内的经验因子；ε_d为t+1时刻所述本车(1)与所述前车(2)实际间距在最佳间距D_F附近的邻域；

对于所述左车(3)，左侧车道虚拟环境模型具体定义为下式(3)：

式(3)中：θ_L，t+1为t+1时刻所述本车(1)向左的横摆角；Δv是所述本车(1)在时刻t和时刻t+1的速度变化量；d_L，t+1是时刻t+1所述本车(1)与左车(3)之间的直线距离；μ_L是在(-100，100)范围之内的经验因子；ε_θ为θ_L，t+1附近的邻域；

对于所述右车(4)，右侧车道虚拟环境模型具体定义为下式(4)：

式(4)中：θ_R，t+1为t+1时刻所述本车(1)向右的横摆角；Δv是所述本车(1)在时刻t和时刻t+1的速度变化量；d_R，t+1是时刻t+1所述本车(1)与右车(4)之间的直线距离；μ_R是在(-100，100)范围之内的经验因子；ε_θ为θ_R，t+1附近的邻域。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910283506.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W30-00 不与某一特定子系统的控制
B60W30-02 .车辆驾驶稳定性的控制
B60W30-06 .用于驻车的自动操作
B60W30-08 .预测或避免可能的或即将到来的碰撞的
B60W30-10 .路线保持
B60W30-14 .巡航控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的防碰撞控制方法有效

专利文献下载