[发明专利]一种基于强化学习的航行器路径规划方法有效
申请号: | 202011418107.X | 申请日: | 2020-12-05 |
公开(公告)号: | CN112698646B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 彭星光;刘硕;王童豪;宋保维;潘光;张福斌;高剑;李乐;张立川 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06F17/15;G06N20/00 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 航行 路径 规划 方法 | ||
本发明公开了一种基于强化学习的航行器路径规划方法。该方法通过接入电子海图中障碍物的信息构建了虚拟力场,设定虚拟力场的奖励函数,然后将状态转移五元组引入航行器路径规划任务中,最后通过结合虚拟力场思想的确定性策略强化学习算法引导航行器通过最优路径到达目标点。该方法接入了实时海图信息,航行器能够应对不同地形情景下进行避障,具有良好的扩展性和自适应性。
技术领域
本发明属于航行器技术领域,具体涉及一种路径规划方法。
背景技术
路径规划是航行器实施任务的前提条件之一。以海洋航行器为例,在其执行任务时,由于洋流及地形复杂,为保障作业的安全性,航行器需要具备路径规划的能力。同时,路径规划也是确保航行器能开展探测环境、采集资源、布放设施等后续任务的前提。因此,研究航行器的路径规划技术尤为重要。
强化学习是一种让智能体通过“试错”方式进行学习的机器学习算法。强化学习利用大量的交互数据,让智能体从经历中学习,并最终采取最大化预期利益的行动策略。航行器在实际场景下的移动可视为一个马尔科夫链,因此,该路径规划问题可建模为一个马尔科夫决策问题,适用于利用强化学习方法对路径进行优化。
在航行器路径规划问题中,路径应具备安全性和节能性。安全性体现在给航行器下达任务后,航行器应远离危险区域、威胁区域,从而保障自身安全,并保证后续任务的顺利开展。节能性体现在航迹路径应尽可能短,能够给航行器节约储备能源。此外,规划的路径应满足航行器的运动特性,能够应用于实际场景。综上所述,规划的路径应使得航行器能在远离障碍物和威胁区域的前提下,尽可能快速到达目标点。
发明内容
为了克服现有技术的不足,本发明提供了一种基于强化学习的航行器路径规划方法。该方法通过接入电子海图中障碍物的信息构建了虚拟力场,设定虚拟力场的奖励函数,然后将状态转移五元组引入航行器路径规划任务中,最后通过结合虚拟力场思想的确定性策略强化学习算法引导航行器通过最优路径到达目标点。该方法接入了实时海图信息,航行器能够应对不同地形情景下进行避障,具有良好的扩展性和自适应性。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:设定航行器路径规划的任务奖励函数;
设定航行器远离威胁区域时受到虚拟斥力的奖励函数如下:
式中,是航行器的纬度,是第i个威胁区域中心的纬度,ψvsl是航行器的经度,是第i个威胁区域中心的经度,N是威胁区域数量,t是时间步;
设定航行器与威胁区域保持安全距离的奖励函数如下:
式中,dsafety是航行器距离威胁区域的最小距离;
设定航行器受到目标点的虚拟吸引力的奖励函数如下:
式中,是目标点的纬度,ψtar是目标点的经度,λ是虚拟吸引力系数;
设定航行器到达目标点的奖励函数设置如下:
综合式(1)到式(4),每个时间步内航行器采取动作时受到环境反馈的总奖励值rtotal为上述总和,公式如下:
rtotal=rrepulsion+rsafety+rattract+rarrival (5)
步骤2:将航行器的路径规划任务对应马尔科夫决策过程进行五元组建模,得到状态转移五元组如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011418107.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阀门耐压性测试装置
- 下一篇:一种花生种植用滚筒式生石灰圈撒器