[发明专利]一种基于改进的深度强化学习的路径规划方法有效

专利信息
申请号: 202011311727.3 申请日: 2020-11-20
公开(公告)号: CN112362066B 公开(公告)日: 2023-02-10
发明(设计)人: 杨宁;赵可贺;郭雷 申请(专利权)人: 西北工业大学
主分类号: G01C21/20 分类号: G01C21/20
代理公司: 西安凯多思知识产权代理事务所(普通合伙) 61290 代理人: 王鲜凯
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 深度 强化 学习 路径 规划 方法
【权利要求书】:

1.一种基于改进的深度强化学习的路径规划方法,其特征在于步骤如下:

步骤1、对传统深度Q网络在策略和网络结构上进行优化:

策略的改进:对下述ε-greedy策略进行改进,

μ是每轮随机生成的,大小在0和1之间,ε表示探索率,表示随机动作;

(1)经验深度的策略:以当前点为中心的八个邻域的矩形,并评估选择一个特定动作时所获得的经验珍贵程度;价值估计网络E的t时刻损失函数为:

Ltt)=Es,a{((1+|rt|)-e(st,at;θtE))2} (2)

根据奖励功能的稀疏形式,将e(st,at;θtE)转换为:

价值估计网络E在Q网络训练之前的预训练阶段完成训练,然后选择动作;

所述奖励功能的稀疏形式为:

给rreach正值来鼓励模型找到目标,给rcrash负值来惩罚碰撞行为;随着当前点和目标点距离的增加,正常动作所对应的奖励值会减小,并且γ需要小于1来促使智能体到达目标点;

(2)经验广度的策略:模型创建并行结构处理训练过程中的路径游荡现象,模型选择动作最大化

提取在游荡点ext-1=(st-1,at-1,rt-1,st)和ext=(st,at,rt,st+1)前两步和当前步的经验,模型通过贪婪随机策略与环境互动,并判断在更新策略后网络权重是否能够跳出游荡点;如果模型能够识别该点,或者步数达到了一张地图预设的最大探索步骤,那么结构结束;如果没有,它将继续增加游荡点经验;

(3)避免不正确估计的策略:在每个迭代过程中设置智能体所能移动的最大步数:

termial指的是到达目标点或障碍物时;

(4)网络结构的改进:价值评估网络由卷积层和全连接层组成,用relu激活函数减少梯度消失并加快训练速度,Q网络包括预处理层、密集块和全连接层,为了训练模型,计算损失和均方误差,然后更新网络参数;

步骤2:将步骤1的策略和网络结构生成Improve-DQN算法,用于路径规划,规划时输入需要规划的地形图,起始点坐标值,终点坐标值以及障碍点坐标值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011311727.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top