[发明专利]一种基于深度确定梯度强化学习的通信抗干扰方法有效
申请号: | 201811129485.9 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109302262B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 黎伟;王军;李黎;党泽;王杨 | 申请(专利权)人: | 电子科技大学;中国电子科技集团公司第五十四研究所 |
主分类号: | H04K3/00 | 分类号: | H04K3/00;G06N3/04;G06N3/08 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 孙一峰 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于无线通信技术领域,涉及一种基于深度确定梯度强化学习的通信抗干扰方法。本发明首先根据干扰源数量和无线信道模型构造干扰环境模型;根据合法用户通信质量指标构造效用函数,并把该效用函数作为学习中的回报;将不同时隙采样的频谱信息构建成频谱时隙矩阵,用该矩阵描述干扰环境状态。然后根据深度确定梯度强化学习机制,构造卷积神经网络,在进行抗干扰决策时,环境状态矩阵通过目标演员卷积神经网络实现对应状态在连续空间上的抗干扰策略选择。本发明基。于深度确定梯度策略的强化学习机制完成通信中连续抗干扰策略选择。克服了量化离散处理策略空间带来的量化误差,降低了神经网络输出单元格数和网络复杂度,提高了抗干扰算法性能。 | ||
搜索关键词: | 一种 基于 深度 确定 梯度 强化 学习 通信 抗干扰 方法 | ||
【主权项】:
1.一种基于深度确定梯度强化学习的通信抗干扰方法,其特征在于,包括以下步骤:S1、初始化定义,包括:干扰环境:根据干扰者数量、干扰方式和无线信道模型定义干扰环境;干扰环境状态:将不同时隙测得的频谱信息构成频谱时隙矩阵,频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定;回报函数:根据合法用户的通信质量指标构造反馈回报函数;抗干扰策略:将不同子信道上的发射功率组合定义为抗干扰策略集;深度神经网络:构造目标演员、估计演员、目标评论家和估计评论家四个深度神经网络,其中,目标演员神经网络和估计演员神经网络具有相同的网络结构,目标评论家神经网络和估计评论家神经网络具有相同的网络结构;经验存储池:预设一个固定大小的经验存储池,用于存储由当前干扰抑制策略、环境状态、当前干扰抑制策略和环境回报组成的经验组;S2、将干扰环境状态,即频谱时序矩阵通过目标演员卷积神经网络得到抗干扰策略,并将该策略作用于干扰环境,根据回报函数观测当前抗干扰策略下在干扰环境的回报值和下一步转移后的状态矩阵;所述目标评论家神经网络的输出用于帮助评价演员神经网络的策略选择优劣;S3、将当前抗干扰策略、干扰环境状态、抗干扰策略下的回报值和转移环境状态构成经验组存储到经验池;S4、从经验池中抽样经验组对估计演员神经网络和估计评论家神经网络进行训练,当训练步数达到预设值时,用估计演员神经网络参数覆盖目标演员神经网络参数,用估计评论家神经网络参数覆盖目标评论家神经网络参数,从而完成目标演员神经网络的参数更新;S5、判断学习机制是否满足预设的停止条件,若满足,则停止学习得到最后抗干扰策略;否则回到S2继续学习。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;中国电子科技集团公司第五十四研究所,未经电子科技大学;中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811129485.9/,转载请声明来源钻瓜专利网。