[发明专利]一种基于DDPG迁移学习的无人机机动目标跟踪方法有效

申请号：	202010486053.4	申请日：	2020-06-01
公开（公告）号：	CN111667513B	公开（公告）日：	2022-02-18
发明（设计）人：	李波;杨志鹏;高晓光;万开方;梁诗阳;马浩	申请（专利权）人：	西北工业大学
主分类号：	G06T7/277	分类号：	G06T7/277
代理公司：	西北工业大学专利中心 61204	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ddpg 迁移学习无人机机动目标跟踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法，通过对任务分解，初始化环境状态，神经网络参数等其他超参数，对神经网络进行训练。回合起始时，无人机执行行动改变速度和航向角，得到新的状态，并将每一回合的经验保存于经验池中作为学习样本，不断迭代更新神经网络的参数。当训练完成时，保存子任务训练好的神经网络参数，并迁移至下一任务场景下的无人机机动目标跟踪网络中，直到最终任务完成。

技术领域

本发明涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法，属于机器人智能控制领域。

背景技术

随着无人机技术的不断发展，无人机已广泛应用于民事领域中。在无人机的诸多任务中，执行最多的是监视、侦察任务，如果无人机能够自主、准确的对它方机动目标进行跟踪，扩大监视范围，同时有效规避威胁区域，就可以极大的提高监视、侦察甚至是攻击效率。

现有大多数对无人机机动目标的研究放在机动目标状态估计和测量信息处理这一块，很少研究如何在确定机动目标状态后，决策无人机的机动行为，让其更好的跟踪目标。传统的无人机机动目标跟踪算法主要取决于对目标运动建模的精确度，如果目标跟踪的环境模型和实际运动模型存在较大的误差，会导致跟踪过程中出现因目标状态无法估计的影响因素，另外对目标机动建模需要耗费时间。无人机跟踪的环境可能是比较复杂、动态变化、甚至是不确定的，以及无人机所承担的目标跟踪任务日趋复杂。综合以上因素，对无人机的自主性提出了更高的要求，越来越需要无人机有自主学习的能力。因此研究对环境模型依赖程度低或不需要模型、能通过与环境交互自主学习，适应复杂机动目标的跟踪方法是非常有意义的，同时也将成为无人机机动目标跟踪研究领域的必然趋势。

公开专利CN108919640B提出了一种基于强化学习的无人机目标跟踪方法，跟踪环境较为简单，决策所需的数据量较小，不能满足环境复杂情况下的无人机目标跟踪，难以应用于真实场景下的无人机控制系统之中。公开专利CN110806759A提出了一种基于深度强化学习的飞行器航线跟踪方法，该发明基于深度强化学习对飞行器的物理控制进行在线修正，实现无人机自主感知和决策。然而，该方法没有考虑神经网络拟合所需要的时间成本还有其迁移能力，使得任务难以训练。

深度确定性策略梯度(DDPG)算法不仅利用了深度Q网络算法中经验池和双神经网络结构的优良性能，改善了传统强化学习数据爆炸等问题；还拥有策略梯度算法的特点，可以有效处理连续域数据，并使神经网络快速收敛。此外，作为一种高效的机器学习方法，迁移学习能够对不同任务中开发好的网络进行迁移，并重新应用于其相似工程任务模型的开发过程中，大大节省训练时间和成本，提升网络、模型的泛化能力。因此，设计一种基于DDPG迁移学习的无人机机动目标跟踪方法，对于无人机在相关领域应用的实现具有重要意义。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于DDPG迁移学习的无人机机动目标跟踪方法。

技术方案

一种基于DDPG迁移学习的无人机机动目标跟踪方法，其特征在于步骤如下：

步骤1：对无人机机动目标跟踪的马尔科夫模型(S,A,O,R,γ)进行构建，其中S为无人机的输入状态，A为无人机的输出动作，O为无人机传感器的观测空间，R为奖励函数，γ为折扣系数；

步骤1-1：定义马尔科夫模型的状态空间，即输入状态S：

结合无人机状态、目标状态、障碍物状态信息，设定模型输入状态为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010486053.4/2.html，转载请声明来源钻瓜专利网。