[发明专利]一种改进DDPG算法的无人车路径规划方法在审
申请号: | 202110283474.1 | 申请日: | 2021-03-17 |
公开(公告)号: | CN113064424A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 宋晓茹;朱坚;刘锦豪;李彤晖;刘康 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 西安新思维专利商标事务所有限公司 61114 | 代理人: | 黄秦芳 |
地址: | 710032 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 ddpg 算法 无人 路径 规划 方法 | ||
1.改进DDPG算法的无人车路径规划方法,其特征在于:
具体包括以下步骤:
步骤S1:设计奖励函数,所述奖励函数一方面考虑车辆须保持一定的速度在道路中轴行驶,另一方面考虑车辆安全,若车辆当前状态与上一时刻状态相比如果发生损坏,对该车辆动作进行惩罚;奖励函数如下式所示;
reward=speed*(cos(angle)-|2sin(angle)|-trackPos) (1)
上式中,angle表示车辆方向与道路方向的夹角,speed*cos(angle)表示车辆沿着道路方向的速度,speed*sin(angle)表示车辆沿与道路垂直方向的速度,trackPos表示车辆与轨道轴之间的距离,如果车辆前一时刻和后一时刻车辆发生损坏,在上式基础上再减去10;
步骤S2:改进OU噪声,在算法进行训练之前,首先设定一个噪声值,随着训练时间的加长,逐步的减小这个噪声,改进OU噪声如下所示;
上公式中,noise表示噪声信号,ε表示再训练中每一步减少的噪声值,Nt(μ,θ,σ)表示一个经典的OU过程;
步骤S3:设计网络结构,在网络结构中将方向,油门,刹车这三部分做为网络结构中平行的三个部分,然后将这三部分的输出进行连接,作为整个神经网络的输出,从而形成Actor网络的网络结构模型(Actor-model);将状态值和动作值分别输入到网络层中,将输出连接后输入另一个网络层中,形成Critic网络的网络结构模型(Output_Critic-model);
步骤S4:TORCS模拟器环境验证,将算法模型应用到改模拟器中进行训练测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110283474.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:冲牙器的输出控制方法及系统
- 下一篇:网络抓包方法、装置、设备和介质