[发明专利]一种基于Q-学习的雷达抗干扰方法及系统有效
申请号: | 201910811779.8 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110515045B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 王峰;汪浩 | 申请(专利权)人: | 河海大学 |
主分类号: | G01S7/36 | 分类号: | G01S7/36 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 张欢欢 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 雷达 抗干扰 方法 系统 | ||
1.一种基于Q-学习的雷达抗干扰方法,其特征是,包括以下过程:
第一步,雷达接收阵列收到来自干扰机发射的所有电磁干扰信号,电磁干扰信号经过脉压处理后获得干扰信号的时域波形,所有干扰信号的时域波形组合作为初始场景状态集合J;这一集合中的所有干扰看作是雷达需要应对的所有对抗场景,一个干扰信号对应一个干扰场景,每一个场景又要作为Q-learning训练的状态,将此集合称之为场景状态集合;
第二步,从初始场景状态集合J中获取某一特定的干扰场景作为Q-learning的初始状态,记为Jt;
第三步,记自适应抑制动作集合为a,包括自适应副瓣对消算法、对单个多普勒通道进行自适应对消的1DT-STAP算法、依据门限进行自适应旁瓣抑制的匿影技术;初始化动作选择策略为π,按照策略π选择自适应抑制动作at=π(Jt),计算干扰抑制比并作为状态Jt下采用at获得的奖惩信号r(Jt,at)反馈给智能体Agent,同时Agent进入下一干扰状态Jt+1(Jt,at),依据策略π继续选择自适应抑制动作at+1=π(Jt+1)与环境进行交互,直到Agent到达目标检测状态时结束策略π的一次训练;
第四步,利用状态动作价值函数Qπ(J,a)评估上述策略π的训练过程,当前干扰状态下采用特定的自适应抑制动作的价值函数用当前干扰状态下的干扰抑制比与下一状态动作价值的折扣期望值之和来表示,即:
式中π是策略,Jt是当前干扰状态,Jt+1表示采用动作at得到的下一干扰状态,at+1表示在下一状态采取的动作,rt表示当前干扰状态下采用at后获得的奖惩信号;
第五步,选择强化学习中的Q-learning算法,对Q-Table中策略π所经历的状态动作价值函数进行一次更新:
Qπ(Jt,at)←(1-μ)·Qπ(Jt,at)+rt(Jt,at)+η{Qπ[Jt+1,π(Jt+1)]}
式中μ是学习率,η是折扣因子;其中,Q-Table就是Q-learning中需要迭代更新的一张Q表,以状态和动作分别为行和列构成,其中存储的是状态动作价值函数;
第六步,朝着状态动作价值高的动作更换自适应算法的动作策略,重复第二步~第五步的处理步骤,从而完成Q-Table中所有状态动作值函数的迭代更新过程,通过收敛后的最优Q-Table,获得初始干扰场景Jt的最优策略,根据状态动作价值函数的最大的方向确定最优策略,π*=arg maxaQ*(J,a);
第七步,重复第二步~第六步的步骤,对干扰场景状态集合内的所有干扰场景分别进行训练并完成相应的Q-Table的学习更新,从而获得不同干扰场景对应的最优策略。
2.一种基于Q-学习的雷达抗干扰系统,包括模型建立模块和策略计算模块;
模型建立模块,用于执行第一步,雷达接收阵列收到来自干扰机发射的所有电磁干扰信号,电磁干扰信号经过脉压处理后获得干扰信号的时域波形,所有干扰信号的时域波形组合作为初始场景状态集合J;这一集合中的所有干扰看作是雷达需要应对的所有对抗场景,一个干扰信号对应一个干扰场景,每一个场景又要作为Q-learning训练的状态,将此集合称之为场景状态集合;
第二步,从初始场景状态集合J中获取某一特定的干扰场景作为Q-learning的初始状态,记为Jt;
第三步,记自适应抑制动作集合为a,包括自适应副瓣对消算法、对单个多普勒通道进行自适应对消的1DT-STAP算法、依据门限进行自适应旁瓣抑制的匿影技术;初始化动作选择策略为π,按照策略π选择自适应抑制动作at=π(Jt),计算干扰抑制比并作为状态Jt下采用at获得的奖惩信号r(Jt,at)反馈给智能体Agent,同时Agent进入下一干扰状态Jt+1(Jt,at),依据策略π继续选择自适应抑制动作at+1=π(Jt+1)与环境进行交互,直到Agent到达目标检测状态时结束策略π的一次训练;
第四步,利用状态动作价值函数Qπ(J,a)评估上述策略π的训练过程,当前干扰状态下采用特定的自适应抑制动作的价值函数用当前干扰状态下的干扰抑制比与下一状态动作价值的折扣期望值之和来表示,即:
式中π是策略,Jt是当前干扰状态,Jt+1表示采用动作at得到的下一干扰状态,at+1表示在下一状态采取的动作,rt表示当前干扰状态下采用at后获得的奖惩信号;
第五步,选择强化学习中的Q-learning算法,对Q-Table中策略π所经历的状态动作价值函数进行一次更新:
Qπ(Jt,at)←(1-μ)·Qπ(Jt,at)+rt(Jt,at)+η{Qπ[Jt+1,π(Jt+1)]}
式中μ是学习率,η是折扣因子;其中,Q-Table就是Q-learning中需要迭代更新的一张Q表,以状态和动作分别为行和列构成,其中存储的是状态动作价值函数;
策略计算模块,用于执行第六步,朝着状态动作价值高的动作更换自适应算法的动作策略,重复第二步~第五步的处理步骤,从而完成Q-Table中所有状态动作值函数的迭代更新过程,通过收敛后的最优Q-Table,获得初始干扰场景Jt的最优策略,根据状态动作价值函数的最大的方向确定最优策略,π*=arg maxa Q*(J,a);
第七步,重复第二步~第六步的步骤,对干扰场景状态集合内的所有干扰场景分别进行训练并完成相应的Q-Table的学习更新,从而获得不同干扰场景对应的最优策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910811779.8/1.html,转载请声明来源钻瓜专利网。