[发明专利]一种雷达智能认知抗干扰策略的生成方法在审
申请号: | 202110106779.5 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112904290A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 纠博;李思博;李康;刘宏伟 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G01S7/36 | 分类号: | G01S7/36 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 刘长春 |
地址: | 710000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 雷达 智能 认知 抗干扰 策略 生成 方法 | ||
1.一种雷达智能认知抗干扰策略的生成方法,其特征在于,包括:
步骤1:构建干扰机的多个干扰策略;
步骤2:基于预先的模仿学习模型对多个干扰策略进行参数化,获得每个干扰策略的参数化表达;
步骤3:对每个干扰策略的参数化表达进行参数摄动,获得参数摄动后的干扰策略;
步骤4:构建基于WR2L的抗干扰策略生成网络,将其作为FA雷达的代理;
步骤5:利用所述参数摄动后的干扰策略,对所述抗干扰策略生成网络训练,以使所述抗干扰策略生成网络按照奖励递增的方向在动作数据中选择动作执行,直至所述抗干扰策略生产网络的执行动作的奖励不再变化,得到训练好的抗干扰策略生成网络;
其中,所述奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到;
步骤6:将干扰机的实时干扰策略输入所述训练好的抗干扰策略生成网络,生成抗干扰策略。
2.根据权利要求1所述的生成方法,其特征在于,所述步骤2包括:
步骤2.1,在所述多个干扰策略中选定一个干扰策略
步骤2.2,构建映射函数fφ(·),初始化一个雷达相干处理时间CPI内的脉冲数T,专家轨迹数量NE,和Dω的初始抗干扰策略和蒙特卡洛估计法中判别器的参数ω0,初始化雷达的干扰策略πpre,定义空表τE;
其中,τE存储样本轨迹τ,τ=s0,a0,r1,s1,a1,r2,...sn,an,rn;
步骤2.3,令循环数n=1;
步骤2.4,根据给定的分布p0(s0)得到样本s0;
步骤2.5,令时间步t=0;
步骤2.6,通过映射函数fφ(·)得到干扰机状态s′t;
步骤2.7,雷达根据策略πpre(at|st)采取行动at;
步骤2.8,干扰机根据预先设定的干扰策略采取行动a′t,并转换状态到st+1;
步骤2.9,在τE中存储s′t和a′t;
步骤2.10,令t=t+1,返回步骤2.5,直至t=N-1;
步骤2.11,令n=n+1,直至n=NE;
步骤2.12,令循环数i=0;
步骤2.13,当终止条件不满足时执行步骤2.14,否则执行步骤2.18;
其中,所述终止条件为:生成器的累积奖励收敛;
步骤2.14,从策略中得到样本轨迹τ′i;
步骤2.15,根据蒙特卡洛估计法估计判别器的梯度,并更新其参数ωi到ωi+1;
步骤2.16,利用强化学习算法TRPO根据奖励函数更新生成器参数到
其中,s′表示状态,a′表示执行动作,为判别分类器,它将输入{s′,a′}映射到一个0到1之间的实数;
步骤2.17,令i=i+1;
步骤2.18,获得干扰策略参数φ。
3.根据权利要求1所述的生成方法,其特征在于,所述步骤3包括:
步骤3.1,从均值为方差为的高斯分布独立抽取样本Δφ;
步骤3.2,将干扰策略参数φ0与抽样数据Δφ进行累加,得到随机干扰策略φ;
其中,φ=φ0+Δφ;
步骤3.3,计算原干扰策略参数φ0与经过摄动的干扰策略参数φ之间的Wasserstein距离;
步骤3.4,将预设范围内的随机干扰策略参数作为摄动后的干扰策略的参数;获得参数摄动后的干扰策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110106779.5/1.html,转载请声明来源钻瓜专利网。