[发明专利]一种基于DDPG迁移学习的无人机机动目标跟踪方法有效
申请号: | 202010486053.4 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111667513B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 李波;杨志鹏;高晓光;万开方;梁诗阳;马浩 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06T7/277 | 分类号: | G06T7/277 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ddpg 迁移 学习 无人机 机动 目标 跟踪 方法 | ||
1.一种基于DDPG迁移学习的无人机机动目标跟踪方法,其特征在于步骤如下:
步骤1:对无人机机动目标跟踪的马尔科夫模型(S,A,O,R,γ)进行构建,其中S为无人机的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣系数;
步骤1-1:定义马尔科夫模型的状态空间,即输入状态S:
结合无人机状态、目标状态、障碍物状态信息,设定模型输入状态为:
其中:无人机状态Suav=[xuav,yuav,vuav,θuav],xuav,yuav表示无人机二维平面上的位置,vuav为无人机的速度,θuav为无人机的方位角;
目标状态xtarget,ytarget表示目标二维平面上的位置,为目标沿X、Y轴的速度分量,ωtarget为目标的转弯角,ωtarget>0为逆时针转弯,ωtarget0为顺时针转弯;
障碍物状态表示第i个障碍物的状态,其中i=1,2,…n;由于每个障碍物的实际物理模型不同,为方便构建,统一对其做外接圆处理;设定障碍物状态其中,表示第i个障碍物在二维平面上的位置,为第i个障碍物的外接圆半径;
步骤1-2:定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机在接受到外界反馈值之后,针对自身状态值所采取的动作集;设定输出动作为:
其中,为无人机t时刻的加速度,ωt为无人机t时刻的角速度;结合实际应用分别对无人机的加速度和角速度进行约束:ωt∈[ωmin,ωmax];其中,分别代表无人机的最小、最大加速度;ωmin、ωmax分别代表无人机的最小、最大角速度;
步骤1-3:定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机与目标的位置、速度信息进行判断和获取;设定观测空间为:
其中,无人机与目标之间的相对距离D为:
无人机与目标之间的相对方位角为:
其中,分别为距离和角度的观测误差值;
步骤1-4:定义奖励函数R:
利用传感器获取无人机与目标位置信息,通过对无人机进行距离奖惩和避障奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值;
设定距离奖励函数r1为:
其中,λ1、λ2为两项奖励的权重值;Dt-1代表无人机与目标上一时刻之间的距离,Dt为无人机与目标当前t时刻之间的距离,Dmin为最小跟踪范围;Dmax为最大跟踪距离,L为传感器的观测范围;若Dt>L,则给予一个负数常数的惩罚奖励C2;若Dt≤L,则给予正奖励;若Dt<L且Dt<Dmin则给予一个正数常数的奖励C1;
设定避障奖励函数为:
其中,是在t时刻无人机与障碍物之间的距离,Dsafe是常数,表示无人机与障碍物之间的安全间隔;
综合无人机距离奖励、避障奖励,得到奖励函数R为:
其中,λ3、λ4分别表示距离奖励、避障奖励权重值;
步骤1-5:定义折扣因子γ:
设定折扣因子0γ1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益;
步骤2:构建DDPG算法的神经网络:
步骤2-1:构建DDPG算法中的策略网络,即Actor策略网络:
策略网络μactor由输入层、隐藏层和输出层组成,对于输入状态向量s,策略网络的输出向量u表示为:
u=μactor(s)
步骤2-2:构建DDPG算法中的评价网络,即Critic评价网络:
评价网络的输出为状态-行为值Qμ(s,u),表示为:
其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量;
步骤2-3:构建目标神经网络:
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ、θQ分别表示当前策略网络和评价网络的参数,θμ′、θQ′分别表示目标策略网络和目标评价网络的参数;
步骤3:无人机和目标状态更新
步骤3-1:构建无人机在t时刻的状态更新方程:
其中,xuav(·)、yuav(·)表示某时刻无人机的坐标值,vuav(·)、ζuav(·)表示某时刻无人机的线速度和角速度,为某时刻无人机的加速度;Δt为仿真时间间隔,(vmin,vmax)为无人机的最小、最大速度;
步骤3-2:构建目标在t时刻的状态更新方程:
其中,表示t+1时刻的目标状态,Ft为状态转移矩阵,Γt为噪声影响矩阵,wt为高斯白噪声;Ft和Γt的表示如下:
步骤4:在任务一场景下使用确定性策略梯度方法训练无人机的机动目标跟踪:
步骤4-1:设定最大训练回合为E,每回合最大步长数为Trange,设定经验池大小M,设定目标神经网络的软更新比例系数τ,设定评价网络和策略网络的学习率分别为αω和αθ;
步骤4-2:初始化状态空间S,初始化网络参数;
步骤4-3:在当前状态St下选择无人机的动作:
其中,μd(·)代表确定性策略函数,为随机过程噪声向量;
步骤4-4:无人机执行动作at,根据步骤1-3计算无人机与目标之间相对距离和相对方位角,由步骤1-4奖励函数得到t时刻奖励值rt,再由步骤3得到下一状态st+1,然后将样本etranstion=st,at,rt,st+1存到经验池中;
步骤4-5:判断经验池的大小NR是否达到要求,若NR<M,则转到步骤4-3;若当所存样本量大于经验池容量时,经验池队列前方样本数据自动出列,此时进入步骤4-6;
步骤4-6:从经验池中随机抽取小批量样本N学习,其学习过程表示为:
yt=rt+γQ'(st+1,μ'(st+1|θμ')|θQ')
其中yt代表目标网络,rt为t时刻的奖励值,θQ′和θμ′分别表示目标评价网络和目标策略网络参数,Q'表示在t+1时刻采取μ'策略得到的状态-行为值;
步骤4-7:根据最小损失函数更新策略网络:
L表示Loss损失函数,N表示用于网络更新的样本数量;
步骤4-8:更新策略梯度:
其中,表示在策略网络参数θμ下的策略梯度,和分别表示评价网络状态-行为值函数梯度和策略网络策略函数梯度,μ(st)表示在策略网络状态st时选取的动作策略,和分别表示状态st下采取动作a=μ(st)时评价网络的状态-行为值和该状态下策略网络的行为值;
步骤4-9:按照以下公式对目标评价网络和目标策略网络的权重更新:
其中,τ为软更新比例系数;
步骤4-10:对迭代步长数k执行k=k+1并进行判定,若k<Trange,则执行t=t+Δt并返回至步骤4-3,否则进入步骤4-11;
步骤4-11:对回合数e进行判定,若e<E,则返回至步骤4-2;若e≥E,则保存当下时刻网络参数,将当前训练好的策略网络作为第一次迁移的网络;
步骤5:进行第一次迁移学习——在任务二场景下训练无人机对机动目标进行跟踪:
步骤5-1:将任务一训练好的神经网络迁移至任务二中,作为任务二的初始化网络;
步骤5-2:执行步骤4-3到步骤4-11的操作,网络经过学习后,完成任务,保存参数并将此时训练好的策略网络作为第二次迁移的网络;
步骤6:进行第二次迁移学习——在任务三场景下训练无人机对机动目标进行跟踪:
步骤6-2:将任务二训练好的神经网络迁移至任务三中,作为任务三的初始化网络;
步骤6-2:执行步骤4-3到步骤4-11的操作,网络经过学习后,完成任务,保存参数;将保存好的数据加载至无人机系统之中,使无人机完成状态输入-神经网络分析-动作输出工作,实现基于DDPG迁移学习的高效率无人机机动目标跟踪。
2.根据权利要求1所述的一种基于DDPG迁移学习的无人机机动目标跟踪方法,其特征在于,λ1、λ2∈(0,1),λ3、λ4∈(0,1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010486053.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种配电电缆电磁热场分析系统
- 下一篇:一种型腔通道最小尺寸计算方法