[发明专利]基于强化学习的未知环境自主导航系统及方法有效
申请号: | 201911313540.4 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111123963B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 顾晶晶;黄海涛 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 未知 环境 自主 导航系统 方法 | ||
1.一种基于强化学习的未知环境自主导航方法,其特征在于,该方法针对基于强化学习的未知环境自主导航系统,该系统包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;
所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对飞行决策模型进行训练;
所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;
所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;
所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航;
包括以下步骤:
步骤1,建立飞行决策模型,并在虚拟环境中基于深度强化学习对飞行决策模型进行训练,获得模型具体包括:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该即时奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
式中,PtUAV表示无人机在t时刻所处位置,表示无人机在t-1时刻所处位置;
(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;
(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;
则即时奖赏可表示为:
式中,T代表飞行时间;
其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:
式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子;
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对所述环境信息数据进行分析获得无人机状态图;
步骤4,将所述无人机状态图作为模型的输入,输出无人机对应采取的动作,之后转到步骤2,并将该动作作用于真实飞行环境中,改变无人机的状态,直至无人机到达终点,由此完成无人机在未知环境中的路径规划任务。
2.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,所述多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911313540.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:驾驶室翻转机械缸
- 下一篇:一种瓦楞纸板及瓦楞纸箱的生产工艺