[发明专利]一种基于改进的深度强化学习的路径规划方法有效
申请号: | 202011311727.3 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112362066B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 杨宁;赵可贺;郭雷 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 深度 强化 学习 路径 规划 方法 | ||
1.一种基于改进的深度强化学习的路径规划方法,其特征在于步骤如下:
步骤1、对传统深度Q网络在策略和网络结构上进行优化:
策略的改进:对下述ε-greedy策略进行改进,
μ是每轮随机生成的,大小在0和1之间,ε表示探索率,表示随机动作;
(1)经验深度的策略:以当前点为中心的八个邻域的矩形,并评估选择一个特定动作时所获得的经验珍贵程度;价值估计网络E的t时刻损失函数为:
Lt(θt)=Es,a{((1+|rt|)-e(st,at;θtE))2} (2)
根据奖励功能的稀疏形式,将e(st,at;θtE)转换为:
价值估计网络E在Q网络训练之前的预训练阶段完成训练,然后选择动作;
所述奖励功能的稀疏形式为:
给rreach正值来鼓励模型找到目标,给rcrash负值来惩罚碰撞行为;随着当前点和目标点距离的增加,正常动作所对应的奖励值会减小,并且γ需要小于1来促使智能体到达目标点;
(2)经验广度的策略:模型创建并行结构处理训练过程中的路径游荡现象,模型选择动作最大化
提取在游荡点ext-1=(st-1,at-1,rt-1,st)和ext=(st,at,rt,st+1)前两步和当前步的经验,模型通过贪婪随机策略与环境互动,并判断在更新策略后网络权重是否能够跳出游荡点;如果模型能够识别该点,或者步数达到了一张地图预设的最大探索步骤,那么结构结束;如果没有,它将继续增加游荡点经验;
(3)避免不正确估计的策略:在每个迭代过程中设置智能体所能移动的最大步数:
termial指的是到达目标点或障碍物时;
(4)网络结构的改进:价值评估网络由卷积层和全连接层组成,用relu激活函数减少梯度消失并加快训练速度,Q网络包括预处理层、密集块和全连接层,为了训练模型,计算损失和均方误差,然后更新网络参数;
步骤2:将步骤1的策略和网络结构生成Improve-DQN算法,用于路径规划,规划时输入需要规划的地形图,起始点坐标值,终点坐标值以及障碍点坐标值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011311727.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种点阵测距机构
- 下一篇:一种具有智能监测功能的锂电池