[发明专利]一种基于强化学习的无人机路径规划方法和装置在审
申请号: | 201710096811.X | 申请日: | 2017-02-22 |
公开(公告)号: | CN106595671A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 郝祁;张志建;杨云波 | 申请(专利权)人: | 南方科技大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 518000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 无人机 路径 规划 方法 装置 | ||
技术领域
本发明实施例涉及机器学习领域,尤其涉及一种基于强化学习的无人机路径规划方法和装置。
背景技术
由于人工作业的存在着一定的复杂性和危险性,现如今多数作业由机器实现。无人机由于其体积小,可以做各种动作以及可以灵活控制,在军事和民用领域中得到了广泛运用,在进行火灾抢救,民用施肥、浇水以及未知的狭小地区的探测等方面,都需要对无人机进行路径规划。
现有的路径规划算法,主要分为两层,一层是基于线下的静态路径规划,指的是各种威胁以及环境地形均已确定的情况下进行的路径规划。第二层则是实时动态的在线路径规划,指的是无人机在飞行过程中遇到未知威胁以及环境地形不确定的情况下的动态规划。其中,具体又有基于单元分解的规划方法、人工势场法、基于数学模型的轨迹优化法以及基于神经网络的路径规划法等。基于单元分解的规划方法,其分解较为复杂且该算法的收敛速度和计算量也依赖于启发函数的选择;人工势场法,容易出现局部最优点,导致无法找到航线,且只适合低维数空间的路径规划;基于数学模型的轨迹优化法,其计算量大,需要通过数值解法来进行求解且容易受局部最小值的影响,故常用于局部的规划;基于神经网络的规划方法是将数字地图地形信息映射到神经网络上,基于飞行约束条件构造能量函数,通过使得能量最小来回的航迹规划方法,但这种方法计算量大,适用于线下路径规划,不适合实时规划。
发明内容
本发明提供了一种基于强化学习的无人机路径规划方法和装置,实现了未知环境下对无人机飞行动作进行选择,进而对其路径进行规划,计算量小,成本低。
第一方面,本发明实施例提供了一种基于强化学习的无人机路径规划方法,所述方法包括:执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
进一步的,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
进一步的,所述方法还包括:初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
进一步的,所述执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作包括:执行单次飞行动作前感知无人机的当前环境状态;基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;选择概率最大的动作作为飞行动作。
进一步的,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
第二方面,本发明实施例提供了一种基于强化学习的无人机路径规划装置,所述装置包括:选择模块,用于执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;更新模块,用于执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断模块,用于判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
进一步的,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
进一步的,所述装置还包括:初始化模块,用于初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
进一步的,所述选择模块具体用于:执行单次飞行动作前感知无人机的当前环境状态;基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;选择概率最大的动作作为飞行动作。
进一步的,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方科技大学,未经南方科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710096811.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光斑检测模块及基于光斑检测的激光定位系统
- 下一篇:导航方法及导航装置