[发明专利]一种基于深度强化学习的防碰撞控制方法有效

申请号：	201910283506.0	申请日：	2019-04-10
公开（公告）号：	CN110027553B	公开（公告）日：	2020-10-23
发明（设计）人：	谢国涛;王静雅;胡满江;秦晓辉;王晓伟;徐彪;秦兆博;孙宁;钟志华	申请（专利权）人：	湖南大学
主分类号：	B60W30/08	分类号：	B60W30/08
代理公司：	北京汇智胜知识产权代理事务所(普通合伙) 11346	代理人：	石辉
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于深度强化学习的防碰撞控制方法，采用深度确定性策略梯度方法(DDPG算法)进行深度强化学习，该方法包括：步骤1，提取本车参数和环境车辆参数；步骤2，利用本车参数和环境车辆参数，构建虚拟环境模型；步骤3，根据本车参数和环境车辆参数和虚拟环境模型，定义所述深度确定性策略梯度方法的基础参数；步骤4，根据步骤3定义好的基础参数，采用深度强化学习中的神经网络构建防碰撞控制决策系统，所述防碰撞控制决策系统包括策略网络和评价网络；步骤5，训练所述策略网络和评价网络，得到所述防碰撞控制决策系统。本发明通过构建基于深度神经网络的防碰撞控制决策系统，基于时间差分强化学习方法不断优化网络控制结果的防碰撞控制决策系统，有效提高了防碰撞控制决策系统的控制性能。
搜索关键词：	一种基于深度强化学习碰撞控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度强化学习的防碰撞控制方法，其特征在于，采用深度确定性策略梯度方法进行深度强化学习，该方法包括如下步骤：步骤1，提取本车参数和环境车辆参数；步骤2，利用步骤1提取得到的本车参数和环境车辆参数，构建虚拟环境模型；步骤3，根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型，定义所述深度确定性策略梯度方法的基础参数，所述基础参数包括：虚拟环境模型在当前时刻t的状态s_t、虚拟环境模型在下一时刻t+1的状态s_t+1、所述本车(1)基于s_t能够进行防碰撞控制的动作a_t、动作a_t对应的回报值r_t；步骤4，根据步骤3定义好的基础参数，采用深度强化学习中的神经网络构建防碰撞控制决策系统，所述防碰撞控制决策系统包括策略网络(5)和评价网络(6)，所述策略网络(5)的输入是状态s，输出是动作a；所述评价网络(6)的输入是状态s和动作a，输出是Q值：Q(s，a)；步骤5，训练所述策略网络(5)和评价网络(6)，得到所述防碰撞控制决策系统：首先，设置所述虚拟环境模型的当前状态表示为s_t，作为所述策略网络(5)的输入，并在所述策略网络(5)上加高斯扰动，所述策略网络(5)输出一个动作a_t；在本车(1)接收到所述动作a_t后，所述评价网络(6)生成对所述动作a_t评价的回报值r_t，同时检测获得下一时刻状态s_t+1；然后，根据所述回报值r_t更新所述评价网络(6)的参数，并沿所述评价网络(6)建议的方向更新所述策略网络(5)的参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910283506.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W30-00 不与某一特定子系统的控制
B60W30-02 .车辆驾驶稳定性的控制
B60W30-06 .用于驻车的自动操作
B60W30-08 .预测或避免可能的或即将到来的碰撞的
B60W30-10 .路线保持
B60W30-14 .巡航控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的防碰撞控制方法有效

专利文献下载