[发明专利]一种基于深度强化学习的无人机避障方法有效

申请号：	202111317296.6	申请日：	2021-11-09
公开（公告）号：	CN114089776B	公开（公告）日：	2023-10-24
发明（设计）人：	曹红波;赵启;刘亮;甄子洋	申请（专利权）人：	南京航空航天大学
主分类号：	G05D1/08	分类号：	G05D1/08;G05D1/10
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	任志艳
地址：	211106 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习无人机方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的无人机避障方法，包括以下步骤：1)在三维空间内建立无人机避障飞行模型，随机生成障碍物数量位置，以及无人机的起始点；2)基于马尔可夫过程框架建立环境模型，3)基于状态和策略选择动作，无人机采取动作后与环境交互产生新的状态并计算得到的奖励，将状态、动作、奖励和下一时刻动作组成四元数通过改进的方法存储在样本空间中，以供样本采样训练；4)采用改进DDQN算法对环境模型采样得到的样本进行网络更新，并对样本的状态‑动作对进行赋值；5)根据样本中状态下各个动作的赋值选择最优动作，进而得到最优策略。本发明提出了采用分割采样池的强化学习避障方法，提高了生成策略的训练效率。

技术领域

本发明属于智能决策技术领域，具体涉及一种基于深度强化学习的无人机避障方法。

背景技术

随着无人机在军事战争和民用领域中起着越来越重要的作用，在多种任务场景中都需要无人机在没有人为干预的情况下自主飞行完成任务。因此，找到一种合适的方法来解决无人机自主飞行时的避障问题，可以在一定程度上提高无人机任务的成功率。传统的避障方法，如人工势场法、可视图法、粒子群优化算法，虽然已经十分成熟，但却需要根据不同的情况建立不同的模型。然而在实际的无人机飞行环境中，往往需要无人机在未知环境中进行探测并实时决策。

强化学习是一种通过不断和环境交互进行优化的方法，无人机选择动作作用于环境，对产生状态变化进行评估，通过训练优化，最终使无人机在每个状态都能采取最优的动作。强化学习已经应用于无人机的避障问题中，由于无人机避障是连续空间中的问题，需要结合神经网络来对每一个状态-动作对赋值，但是结合神经网络的学习容易出现训练过程不稳定的情况。

发明内容

为了解决现有技术中的不足，本发明提供了一种基于深度强化学习的无人机避障方法，将改进的DDQN算法应用到无人机避障飞行中，利用无人机与环境的交互训练得到飞行策略，从而实现无人机在不确定环境中的避障。

为达到上述目的，本发明采用如下技术方案：本发明的一种基于深度强化学习的无人机避障方法，包括如下步骤：

步骤1，在三维空间内建立无人机避障飞行模型，随机生成障碍物数量、位置、以及无人机的起始点；

步骤2，基于马尔可夫过程框架建立环境模型，包括状态空间S、动作空间A、奖励函数R，状态转移概率P；

步骤3，基于状态和策略选择动作，无人机采取动作后与环境交互产生新的状态并计算得到的奖励，将状态、动作、奖励和下一时刻动作组成四元数存储在DDQN算法的经验池中，以供样本采样训练；

步骤4，采用DDQN算法对环境模型采样得到的样本进行网络更新，并对样本的状态-动作对进行赋值；

步骤5，根据样本中状态下各个动作的赋值选择最优动作，进而得到最优策略。

进一步的，步骤2中基于马尔可夫过程框架建立环境模型，包括状态空间S、动作空间A、奖励函数R和状态转移概率P，具体为：

建立的状态空间S包括无人机的当前方位角无人机与最近障碍物的水平距离d_a、无人机与最近障碍物高度差d_ha、无人机与和离其距离最短障碍物中心点组成的向量与x轴的夹角无人机与飞行任务点的水平距离d_o、无人机与飞行任务点的高度差d_ho、无人机与飞行任务点组成向量与x轴的夹角记为

动作空间A包括无人机单位时间内航向角的变化和航迹倾斜角的变化；

建立的奖励函数R设计为：