[发明专利]一种基于强化学习的无人机路径规划方法和装置在审
申请号: | 201710096811.X | 申请日: | 2017-02-22 |
公开(公告)号: | CN106595671A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 郝祁;张志建;杨云波 | 申请(专利权)人: | 南方科技大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 518000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 无人机 路径 规划 方法 装置 | ||
1.一种基于强化学习的无人机路径规划方法,其特征在于,包括:
执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;
执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;
判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
2.根据权利要求1所述的方法,其特征在于,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
4.根据权利要求1所述的方法,其特征在于,所述执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作包括:
执行单次飞行动作前感知无人机的当前环境状态;
基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;
选择概率最大的动作作为飞行动作。
5.根据权利要求1所述的方法,其特征在于,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
6.一种基于强化学习的无人机路径规划装置,其特征在于,包括:
选择模块,用于执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;
更新模块,用于执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;
判断模块,用于判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
7.根据权利要求6所述的装置,其特征在于,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
初始化模块,用于初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
9.根据权利要求6所述的装置,其特征在于,所述选择模块具体用于:
执行单次飞行动作前感知无人机的当前环境状态;
基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;
选择概率最大的动作作为飞行动作。
10.根据权利要求6所述的装置,其特征在于,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方科技大学,未经南方科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710096811.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光斑检测模块及基于光斑检测的激光定位系统
- 下一篇:导航方法及导航装置