[发明专利]一种基于深度Q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统有效
申请号: | 201810494872.6 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108777872B | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 王金龙;徐煜华;刘鑫;徐逸凡;李洋洋;赵磊;冯智斌 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | H04W24/06 | 分类号: | H04W24/06;H04W28/04;G06N3/08;G06N3/04 |
代理公司: | 32203 南京理工大学专利中心 | 代理人: | 薛云燕 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 抗干扰 算法 抗干扰算法 强化学习算法 对用户通信 概率选择 环境状态 时域特征 输入状态 物理意义 智能 大循环 干扰机 接收端 瀑布图 网络权 组发射 拟合 频谱 频域 选频 刻画 场景 清晰 回报 更新 通信 学习 | ||
1.一种基于深度Q神经网络抗干扰模型的智能抗干扰方法,其特征在于,包括以下步骤:
步骤1,初始化:给定ε=1,随机权重θ,感知初始环境S1,通过深度Q神经网络得到拟合对应的Q值表;
步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择Q值最大的策略,即
步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;
步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;
步骤5,更新下一次选择策略的概率ε=max(0.1,ε-Δε),其中Δε为更新步长,并返回步骤2;
循环步骤2~5,直至达到最大迭代次数,算法结束;
步骤1中所述的通过深度Q神经网络得到拟合对应的Q值表,具体如下:
首先对使用的深度卷积神经网络进行预处理,预处理过程为:
其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;
经过预处理后,状态中包含零向量;然后使用深度卷积神经网络CNN对Q函数进行拟合;对于当前的传播环境状态S和用户的频率选择策略a而言,拟合Q函数表示如下:
其中,S′表示在状态S采用策略a所产生的下一个状态,γ表示折扣因子。
2.根据权利要求1所述的基于深度Q神经网络抗干扰模型的智能抗干扰方法,其特征在于,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:
采用经验回放机制,用et=(St,at,rt,St+1)表示t时刻的代理经验,并将其存贮在矩阵Dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~U(D)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。
3.根据权利要求1所述的基于深度Q神经网络抗干扰模型的智能抗干扰方法,其特征在于,步骤4中所述的计算梯度并更新权值,具体如下:
Q学习在第i次迭代使用如式(8)所示损失函数:
Li(θi)=Ee~U(D)[(yi-Q(S,a;θi))2] (8)
其中,θi表示Q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;
依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:
其中,Li(θi)表示损失函数,表示求梯度运算。
4.一种基于深度Q神经网络抗干扰模型的智能抗干扰系统,其特征在于,所述系统包括由一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;其中,由所述用户执行如权利要求1-3任一项所述的一种基于深度Q神经网络抗干扰模型的智能抗干扰方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810494872.6/1.html,转载请声明来源钻瓜专利网。