[发明专利]一种改进DDPG算法的无人车路径规划方法在审
申请号: | 202110283474.1 | 申请日: | 2021-03-17 |
公开(公告)号: | CN113064424A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 宋晓茹;朱坚;刘锦豪;李彤晖;刘康 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 西安新思维专利商标事务所有限公司 61114 | 代理人: | 黄秦芳 |
地址: | 710032 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 ddpg 算法 无人 路径 规划 方法 | ||
本发明公开了一种改进DDPG算法的无人车路径规划方法,具体包括以下步骤:步骤S1:设计奖励函数;步骤S2:改进OU噪声;步骤S3:设计网络结构;步骤S4:TORCS模拟器环境验证。本发明是基于深度强化学习的无人车控制方法,避免了传统无人车控制方法手动调参,耗时费力的弊端。同时通过设计奖励函数、改进OU噪声和根据传感器的反馈设计神经网络结构,在TORCS模拟器环境下验证了大大加快了算法的收敛速度,实现无人车的快速控制并提高运行稳定性,最终可得到一条最优路径。
技术领域
本发明涉及深度强化学习和无人车路径规划领域,更具体地,涉及一种改进DDPG算法的无人车路径规划方法。
背景技术
无人车技术是涉及机器人技术、车辆工程、人工智能、计算机技术等在内的交叉学科,在各个方面都有着广泛的应用。在无人车的各项技术中,无人车的路径规划是其中的一个重要组成部分。传统的无人车路径规划算法再环境的状态急剧增大时,其计算量会大大增加,无法进行有效的处理,同时其对环境的适应能力较低,无法泛化处一个通用的算法模型。
发明内容
本发明提供一种改进DDPG算法的无人车路径规划方法,解决了在复杂连续空间内的无人车路径规划问题。
为了达到上述目的,本发明的技术方案如下:
改进DDPG算法的无人车路径规划方法,其特征在于:
具体包括以下步骤:
步骤S1:设计奖励函数,所述奖励函数一方面考虑车辆须保持一定的速度在道路中轴行驶,另一方面考虑车辆安全,若车辆当前状态与上一时刻状态相比如果发生损坏,对该车辆动作进行惩罚;奖励函数如下式所示;
reward=speed*(cos(angle)-|2sin(angle)|-trackPos) (1)
上式中,angle表示车辆方向与道路方向的夹角,speed*cos(angle)表示车辆沿着道路方向的速度,speed*sin(angle)表示车辆沿与道路垂直方向的速度,trackPos 表示车辆与轨道轴之间的距离,如果车辆前一时刻和后一时刻车辆发生损坏,在上式基础上再减去10;
步骤S2:为了使模型可以快速学习和更新为网络参数,提高算法的探索能力,求取到最优解,因此采用不断衰减噪声信号的方法来改进OU过程。
改进OU噪声,在算法进行训练之前,首先设定一个噪声值,随着训练时间的加长,逐步的减小这个噪声,改进OU噪声如下所示;
上公式中,noise表示噪声信号,ε表示再训练中每一步减少的噪声值, Nt(μ,θ,σ)表示一个经典的OU过程;
步骤S3:设计网络结构,在网络结构中将方向,油门,刹车这三部分做为网络结构中平行的三个部分,然后将这三部分的输出进行连接,作为整个神经网络的输出,从而形成Actor网络的网络结构模型(Actor-model);将状态值和动作值分别输入到网络层中,将输出连接后输入另一个网络层中,形成Critic 网络的网络结构模型(Output_Critic-model);
步骤S4:TORCS模拟器环境验证,将算法模型应用到改模拟器中进行训练测试;整网络参数,对改进DDPG算法的无人车路径规划方法进行仿真,评估无人车在道路的不同位置的运行姿态,验证了该算法的可行性。
与现有技术相比,本发明的有益效果如下:
(1)本发明通过结合环境模型的实际情况设计了奖励函数,并通过改进算法的探索策略以提高算法的探索效率,使得算法模型可以更快收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110283474.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:冲牙器的输出控制方法及系统
- 下一篇:网络抓包方法、装置、设备和介质