[发明专利]一种基于双层深度强化学习的自动驾驶车辆换道方法在审
申请号: | 202310347395.1 | 申请日: | 2023-04-03 |
公开(公告)号: | CN116639124A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 彭剑坤;申阳;张思雨;范毅;周稼铭;衣丰艳 | 申请(专利权)人: | 东南大学 |
主分类号: | B60W30/18 | 分类号: | B60W30/18;B60W60/00;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双层 深度 强化 学习 自动 驾驶 车辆 方法 | ||
本发明提出了一种基于双层深度强化学习的自动驾驶车辆换道方法,所述方法包括:结合人类驾驶行为,将自动驾驶车辆换道行为分为换道决策阶段和换道运动阶段,分别使用深度强化学习DQN网络与DDPG网络进行换到决策和运动轨迹的训练,最终可在预测过程中将对当前行车状态进行智能决策,一体化的完成自动驾驶车辆在换道行为中决策和运动功能。本发明实现了采用双层深度强化学习方法模拟人类实际驾驶行为,最终实现自动驾驶车辆智能换道行为的目标。
技术领域
本发明涉及一种基于双层深度强化学习的自动驾驶车辆换道方法技术,属于汽车自动驾驶技术领域。
背景技术
随着汽车工业和物联网技术的发展,自动驾驶汽车成为一种汽车发展的必然趋势。为了提高自动驾驶汽车的智能化、商用化,必须保障汽车基本行为之一的换道行为安全、舒适以及效率。
目前,现有技术包括公开的相关专利主要采用轨迹跟踪控制方法对自动驾驶汽车进行跟踪控制,有MPC控制、线性二次型调节器LQR跟踪控制等传统控制方法。然而汽车行驶时的交通环境具有极大的复杂性、时变性等特征,同时车辆本身的非线性、不确定性也很严重,难以建立数学模型来进行控制设计,因此传统的控制策略已无法满足自动驾驶的控制需求。
近年来,随着人工智能算法的发展以及汽车硬件技术的提高,采用人工智能的手段来解决自动驾驶问题逐渐成为了一种可行方案。自动驾驶的目标是使车辆在感知当前交通环境,无人参与控制的情况下的行驶。实现这个目标的最重要的任务就是使车辆学习根据观察到的环境自动输出方向盘、油门、刹车灯控制信号的驾驶策略。
在众多机器学习算法中,深度学习具有较强的感知能力,强化学习具有决策能力,而深度强化学习算法则将深度学习的感知能力和强化学习的决策能力相结合,是一种更接近人类思维方式的人工智能方法。基于深度强化学习的无人驾驶车辆自动控制策略可以通过反复试错的方式,使自动驾驶车辆学习从交通环境到驾驶动作的直接映射过程,具有重要的理论和现实意义。
在换道行为中,可以分为换道决策阶段和换道动作阶段,因此设计一种双层深度强化学习的控制策略进行分别控制与协同优化也具有重要意义。
发明内容
技术问题:
本发明针对现有技术存在的问题,提出一种基于双层深度强化学习的自动驾驶车辆换道方法,目的在于考虑交通环境的复杂性、时变性的情况下,自动驾驶车辆可以通过反复试错,最终在保障安全、舒适以及效率的前提下,做出合理的换道决策与运动轨迹。
技术方案:
本发明为解决其问题提出以下技术方案:
一种基于双层深度强化学习的自动驾驶车辆换道方法,所述换道包括换道决策和换道运动两个阶段。该换道方法包括以下步骤:
步骤一、构建DQN进行自动驾驶汽车换道决策离散动作的学习;
步骤二、构建DDPG进行自动驾驶汽车运动轨迹连续动作的学习;
步骤三、以步骤二的DQN、步骤三的DDPG构建双层深度强化学习网络,使DQN输出动作转变成DDPG的开启信息;
步骤四、对双层深度强化学习网络进行训练,并基于训练完成的双层深度强化学习网络进行自动驾驶车辆换道。
进一步地:步骤一具体为:以目标车辆接收到的环境信息作为目标车辆的状态空间,由DQN选择动作执行,之后更新目标车辆的状态空间,并选取换道完成前后关于目标车辆与前车的距离差值的函数作为奖励函数。
进一步地:所述环境信息包括:
目标车辆速度、位置、当前车道编号;当前车道前车速度、位置;相邻车道前车速度、位置。
进一步地:根据目标车辆当前所在车道编号,动作选择包括以下三种情况:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310347395.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于大范围重离子束流的测量监督装置
- 下一篇:高精械架机械手及工作方法