[发明专利]一种基于策略重用和强化学习的导航路径规划方法有效

专利信息
申请号: 201910255926.8 申请日: 2019-04-01
公开(公告)号: CN110081893B 公开(公告)日: 2020-09-25
发明(设计)人: 郝建业;王汉超;侯韩旭 申请(专利权)人: 东莞理工学院
主分类号: G01C21/34 分类号: G01C21/34;G01C21/20
代理公司: 深圳市道勤知酷知识产权代理事务所(普通合伙) 44439 代理人: 何兵;饶盛添
地址: 523000 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 策略 重用 强化 学习 导航 路径 规划 方法
【说明书】:

一种基于策略重用和强化学习的导航路径规划方法,它属于导航路径规划技术领域。本发明解决了现有方法对源策略的重用不充分的问题。本发明引入表示状态重要性的函数来辅助策略选择、策略重用以及策略库重构,实现了在路网地图中快速规划导航路径的目的。相比较于现有传统路径规划方法,本发明的算法ARES‑TL采用了基于策略重用的强化学习算法,并实时更新完整的策略库,通过占用一些空间存储策略库来节约算法时间,且强化学习算法能应对在线微量更新的地图,同时相对于同类型的策略重用方法,本发明的算法ARES‑TL相对于PRQL以及OPS‑TL规避了对不相干的源策略的重用导致的负迁移,提高了探索效率且能准确地完成导航任务。本发明可以应用于导航路径规划技术领域。

技术领域

本发明属于导航路径规划技术领域,具体涉及一种导航路径规划方法。

背景技术

导航路径规划是导航系统的重要组成部分,其应用体现在自动驾驶以及物流运输等领域。导航路径规划的目的是在给定的路网地图下,计算出起始位置以及目标位置之间连通的一条最短路径。在实际应用中,导航路径规划算法对于给定的路网以及目标位置可以生成一个对应的导航策略,导航策略能够通过已有的知识给出在实时位置的行进方向。现有的导航系统一般通过确定的动态规划方法来实现路径规划,常见的方法包括Dijkstra算法,Floyd算法以及A*算法等。然而。这些确定性的算法在针对规模较大的问题时复杂度较高,且不能针对动态路网计算生成实时的行走路径。因此,导航路径规划算法需要提高其自学习能力和自适应性以面对不确定的路网环境。

在人工智能领域中,强化学习(Reinforcement Learning,RL)是解决序贯决策问题的一个重要框架。其优点体现在对环境的自适应性以及很少依赖人类经验的自学习能力,适合作为解决导航路径规划问题的新的算法框架。然而,强化学习中智能体(Agent)若不借助人类或历史的经验,从零开始学习(learning from tabula rasa)到完成困难的目标任务(例如前往未到过目标位置)通常很缓慢。

一般的思路是通过迁移学习(Transfer Learning)来借助历史经验来帮助强化学习提升学习效率,可以使强化学习智能体能够对环境有更广泛地认识和更有效地探索。在导航领域中,对于固定或有细微变化的路网地图内容,利用迁移学习可以免去对不同目标位置的路径规划中对于基本路网信息相关知识的重复训练,能够节约训练时间从而更快地提供所需路径的导航策略。

策略重用作为一种迁移学习方法,通过重用过去的类似学习策略来加速新任务的强化学习过程。关于策略重用的现有研究包括再利用专家的建议,以奖励形成方式定义政策模拟集,将策略选择模型化为贝叶斯最优化问题,以及通过重用实例来估计奖励函数从而将源任务的经验实例迁移到目标任务等。然而这些方法还需要更多的额外知识来迁移源策略。Fernandez和Veloso提出了策略重用(Policy Reuse Q-Learning,PRQL)方法和策略库重构(Policy Library through Policy Reuse,PLPR)方法。其中:PRQL引入了用于促进探索的先前策略的库,使得包含车辆导航系统在内的智能体(Agent)能够快速收集相关信息而加速学习。然而负迁移的存在使得PRQL可能收敛到次优策略。而PLPR构建一个没有明确理论保证的政策库。之后出现了对PRQL的策略选择进行优化的方法(OPS-TL),该方法借鉴了解决多臂赌博机(Multi-Armed Bandits,MAB)问题的UCB1方法在线学习。然而OPS-TL需要更多的性能反馈来评估选择源,这需要一段时间来锁定早已了解的合适的策略,并且还需要人工设置学习率以达到一定时间后的独立学习。

由于现有方法在重用策略时采取了步步趋离的方式,且其后期的学习率很低,导致现有方法对源策略的重用很不充分。

发明内容

本发明的目的是为了解决现有方法对源策略的重用不充分的问题。

本发明为解决上述技术问题采取的技术方案是:一种基于策略重用和强化学习的导航路径规划方法,该方法包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞理工学院,未经东莞理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910255926.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top