[发明专利]一种协同通信干扰决策方法在审
申请号: | 202111461271.3 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114423046A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 许华;宋佰霖;齐子森;饶宁;彭翔 | 申请(专利权)人: | 中国人民解放军空军工程大学 |
主分类号: | H04W28/18 | 分类号: | H04W28/18;H04W72/04;H04W72/08;H04W16/22;G06N20/00 |
代理公司: | 西安亚信智佳知识产权代理事务所(普通合伙) 61241 | 代理人: | 骆怡洁 |
地址: | 710038 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协同 通信 干扰 决策 方法 | ||
1.一种协同通信干扰决策方法,其特征在于,该方法包括:
建立协同决策模型,提供决策环境;
基于深度强化学习,在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法,根据所述干扰决策算法输出最优的干扰方案。
2.根据权要求1所述协同通信干扰决策方法,其特征在于,定义所述协同决策模型所需的基本元素为:状态空间和动作空间;其中,状态空间表示某个目标跳频信号未被干扰的频点数量为h,定义状态空间S=[h1,h2,...,hn],即表示所有目标跳频信号未被干扰的频点数;动作空间定义决策网络输出干扰动作为A,表示干扰站的部署阵地及干扰方向角对应的干扰动作编码,为降低算法的决策维度,在0°~180°范围内每a°可选择一个角度作为干扰方向角。
3.根据权利要求1所述协同通信干扰决策方法,其特征在于,所述基于深度强化学习,在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法,根据所述干扰决策算法输出最优的干扰方案,包括:
通过策略执行网络感知环境状态,获取t时刻各待干扰目标信号的频点数信息St,通过所述策略执行网络的拟合运算输出t时刻各干扰站的干扰动作At。
4.根据权利要求3所述协同通信干扰决策方法,其特征在于,所述基于深度强化学习,在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法,根据干扰决策算法输出最优的干扰方案,包括:
价值评估网络根据获取的t时刻和t+1时刻所述各待干扰目标信号的频点数信息St和St+1,分别输出t时刻所述干扰动作At的状态价值V(St)和t+1时刻所述干扰动作At+1的状态价值V(St+1),来估计当前所述策略执行网络的策略的优劣。
5.根据权利要求4所述协同通信干扰决策方法,其特征在于,所述基于深度强化学习,在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法,根据所述干扰决策算法输出最优的干扰方案,包括:
基于全局思想设置奖励函数,通过在所述奖励函数中引入专家激励,针对各干扰站执行所述干扰动作At后引发的状态改变给出评价,即计算输出引入所述专家激励后的奖励值r。
6.根据权利要求5所述协同通信干扰决策方法,其特征在于,所述在奖励函数中引入专家激励,包括:
在基础奖励值rbase上加入一个额外的专家激励值rexp,得到引入所述专家激励后的所述奖励值r,所述专家激励值rexp为后续决策形成专家式引导,并对当前决策形成内部激励;
其中:专家激励值rexp定义为:
rexp=Ncha×(Njam+1) (1)
引入专家激励后的奖励值r定义为:
r=rbase+rexp (2)
式中:Ncha表示已被干扰的目标数量,Njam表示当前干扰站成功干扰的目标数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军空军工程大学,未经中国人民解放军空军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111461271.3/1.html,转载请声明来源钻瓜专利网。