[发明专利]一种基于强化学习的航行器路径规划方法有效
申请号: | 202011418107.X | 申请日: | 2020-12-05 |
公开(公告)号: | CN112698646B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 彭星光;刘硕;王童豪;宋保维;潘光;张福斌;高剑;李乐;张立川 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06F17/15;G06N20/00 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 航行 路径 规划 方法 | ||
1.一种基于强化学习的航行器路径规划方法,其特征在于,包括以下步骤:
步骤1:设定航行器路径规划的任务奖励函数;
设定航行器远离威胁区域时受到虚拟斥力的奖励函数如下:
式中,是航行器的纬度,是第i个威胁区域中心的纬度,ψvsl是航行器的经度,是第i个威胁区域中心的经度,N是威胁区域数量,t是时间步;
设定航行器与威胁区域保持安全距离的奖励函数如下:
式中,dsafety是航行器距离威胁区域的最小距离;
设定航行器受到目标点的虚拟吸引力的奖励函数如下:
式中,是目标点的纬度,ψtar是目标点的经度,λ是虚拟吸引力系数;
设定航行器到达目标点的奖励函数设置如下:
综合式(1)到式(4),每个时间步内航行器采取动作时受到环境反馈的总奖励值rtotal为上述式(1)到式(4)总和,公式如下:
rtotal=rrepulsion+rsafety+rattract+rarrival (5)
步骤2:将航行器的路径规划任务对应马尔科夫决策过程进行五元组建模,得到状态转移五元组如下:
S,A,P,R,γ
其中,S为航行器的策略网络输入状态的集合,在每一个时间步内,S包括航行器地理位置坐标即纬度和经度ψ、当前航向角θ、距离威胁区域中心的距离总和dobs和距离目标点的距离dtar,S由航行器传感器联合电子海图系统进行获取;当前航向角θ是航行器的艏向与地理正北的矢量夹角;A是航行器动作的集合,在每一个时间步内,A是一个舵角值δ,即航向改变量;航行器在t时间步航向改变δt舵角后,t+1时间步航行器的航向角θt+1计算方式如下:
θt+1=θt+δt (6)
P是航行器的状态转移概率;R是总奖励值rtotal;γ是奖励折扣因子;
步骤3:构建结合虚拟力场思想的确定性策略强化学习算法;
步骤3-1:确定性策略强化学习算法的演员网络包括优化器、航行器动作策略网络和策略网络目标网络,用于接收环境信息,并做出应答;
确定性策略强化学习算法的评论家网络包括优化器、航行器动作价值Q网络和动作价值网络目标网络,用于更新航行器动作策略网络的参数;
确定性策略强化学习算法的航行环境为地图实际场景,航行器数据经验池用于储存状态转移五元组,航行器数据经验池容量为固定值;
步骤3-2:随机初始化航行器动作策略网络、策略网络目标网络、航行器动作价值Q网络和动作价值网络目标网络的网络参数,并每间隔一定时间步将航行器动作策略网络的网络参数复制给策略网络目标网络,每间隔一定时间步将航行器动作价值Q网络的网络参数复制给动作价值网络目标网络;
步骤3-3:在训练时,航行器通过传感器收集来自航行环境的信息,作为航行器动作策略网络的输入,并结合航行器状态作为航行器动作价值Q网络的输入;
策略网络目标网络将当前时间步的状态转移五元组输入给航行器数据经验池;
航行器动作价值Q网络的输出通过梯度下降回传给航行器动作策略网络;
优化器对航行器动作策略网络、航行器动作价值Q网络进行梯度更新;
航行器动作策略网络输出一个动作即舵角,并添加舵角噪声得到实际舵角值,航行器根据实际舵角值进行航向角调整,完成一次航行器与航行环境的交互;
当航行器数据经验池中的状态转移五元组达到指定数目后开始采样并训练,输出目标动作价值Q值给动作价值网络目标网络;当训练达到指定次数后,航行器能够避开威胁区域,得到最优路径;
步骤4:航行器在路径规划任务中的航速为固定值,步骤3的算法通过修正每个时间步内航行器的舵角,来改变航行器的航向,引导航行器到达目标点。
2.根据权利要求1所述的一种基于强化学习的航行器路径规划方法,其特征在于,所述θ∈[0°,360°),δ∈[-35°,+35°],γ∈[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011418107.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阀门耐压性测试装置
- 下一篇:一种花生种植用滚筒式生石灰圈撒器