[发明专利]基于监督信号引导的深度强化学习自动驾驶汽车控制方法有效

申请号：	202110475638.0	申请日：	2021-04-29
公开（公告）号：	CN113156963B	公开（公告）日：	2022-08-12
发明（设计）人：	唐小林;金书峰;汪锋;邓忠伟;胡晓松;李佳承	申请（专利权）人：	重庆大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06F30/20;G06N3/08;G06N3/04
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	杨柳岸
地址：	400044 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督信号引导深度强化学习自动驾驶汽车控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法，其特征在于，该方法具体包括以下步骤：

S1：获取周边车辆状态信息；

S2：建立汽车运动学模型；

S3：利用DDPG算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制，并优化Actor网络的损失函数，同时利用IDM算法和MOBIL算法构建加速度和转向角监督信号，对DDPG算法的训练进行引导和优化；

对DDPG算法的训练进行引导和优化，具体包括以下步骤：

S311：设计奖励函数R：

其中，k₁，k₂，k₃，k₄，k₅，k₆为各项奖励的权重系数；第一项为碰撞奖励，collision代表碰撞事件，碰撞发生时为1，未发生时为0；第二项为右侧车道奖励，lane为本车当前所在车道的序号，lane_num为车道总数；第三项为车速跟踪奖励，v为车辆速度，v_min为奖励范围内的最小速度，v_max为奖励范围内的最大速度，也是所跟踪的期望车速；第四项为舒适性奖励，鼓励本车尽量采取较小的转向角，δ为车辆前轮转向角，δ_min为奖励范围内的最小转向角，δ_max为奖励范围内的最大转向角；第五项为车道中心保持奖励，ΔX为车辆与车道中心线的横向距离；第六项为安全性与效率奖励，Δx为周边车辆与本车的横向距离，Δx_min为本车与前车奖励范围内的最小距离，Δx_max为本车与前车奖励范围内的最大距离；