[发明专利]一种基于改进的深度强化学习的路径规划方法有效

申请号：	202011311727.3	申请日：	2020-11-20
公开（公告）号：	CN112362066B	公开（公告）日：	2023-02-10
发明（设计）人：	杨宁;赵可贺;郭雷	申请（专利权）人：	西北工业大学
主分类号：	G01C21/20	分类号：	G01C21/20
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	王鲜凯
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进深度强化学习路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进的深度强化学习的路径规划方法，其特征在于步骤如下：

步骤1、对传统深度Q网络在策略和网络结构上进行优化：

策略的改进：对下述ε-greedy策略进行改进，

μ是每轮随机生成的，大小在0和1之间，ε表示探索率，表示随机动作；

(1)经验深度的策略：以当前点为中心的八个邻域的矩形，并评估选择一个特定动作时所获得的经验珍贵程度；价值估计网络E的t时刻损失函数为：

L_t(θ_t)＝E_s,a{((1+|r_t|)-e(s_t,a_t；θ_t^E))²} (2)

根据奖励功能的稀疏形式，将e(s_t,a_t；θ_t^E)转换为：

价值估计网络E在Q网络训练之前的预训练阶段完成训练，然后选择动作；

所述奖励功能的稀疏形式为：

给r^reach正值来鼓励模型找到目标，给r^crash负值来惩罚碰撞行为；随着当前点和目标点距离的增加，正常动作所对应的奖励值会减小，并且γ需要小于1来促使智能体到达目标点；

(2)经验广度的策略：模型创建并行结构处理训练过程中的路径游荡现象，模型选择动作最大化

提取在游荡点ex_t-1＝(s_t-1,a_t-1,r_t-1,s_t)和ex_t＝(s_t,a_t,r_t,s_t+1)前两步和当前步的经验，模型通过贪婪随机策略与环境互动，并判断在更新策略后网络权重是否能够跳出游荡点；如果模型能够识别该点，或者步数达到了一张地图预设的最大探索步骤，那么结构结束；如果没有，它将继续增加游荡点经验；

(3)避免不正确估计的策略：在每个迭代过程中设置智能体所能移动的最大步数：

termial指的是到达目标点或障碍物时；

(4)网络结构的改进：价值评估网络由卷积层和全连接层组成，用relu激活函数减少梯度消失并加快训练速度，Q网络包括预处理层、密集块和全连接层，为了训练模型，计算损失和均方误差，然后更新网络参数；

步骤2：将步骤1的策略和网络结构生成Improve-DQN算法，用于路径规划，规划时输入需要规划的地形图，起始点坐标值，终点坐标值以及障碍点坐标值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011311727.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G01 测量；测试
G01C 测量距离、水准或者方位；勘测；导航；陀螺仪；摄影测量学或视频测量学
G01C21-00 导航；不包含在G01C 1/00至G01C 19/00组中的导航仪器
G01C21-02 .应用天文学的方法
G01C21-04 .应用陆地测量法
G01C21-10 .通过速度或加速度的测量
G01C21-20 .执行导航计算的仪器
G01C21-24 .专用于宇宙航行的导航

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进的深度强化学习的路径规划方法有效

专利文献下载