[发明专利]一种基于深度确定梯度强化学习的通信抗干扰方法有效
申请号: | 201811129485.9 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109302262B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 黎伟;王军;李黎;党泽;王杨 | 申请(专利权)人: | 电子科技大学;中国电子科技集团公司第五十四研究所 |
主分类号: | H04K3/00 | 分类号: | H04K3/00;G06N3/04;G06N3/08 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 孙一峰 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 确定 梯度 强化 学习 通信 抗干扰 方法 | ||
本发明属于无线通信技术领域,涉及一种基于深度确定梯度强化学习的通信抗干扰方法。本发明首先根据干扰源数量和无线信道模型构造干扰环境模型;根据合法用户通信质量指标构造效用函数,并把该效用函数作为学习中的回报;将不同时隙采样的频谱信息构建成频谱时隙矩阵,用该矩阵描述干扰环境状态。然后根据深度确定梯度强化学习机制,构造卷积神经网络,在进行抗干扰决策时,环境状态矩阵通过目标演员卷积神经网络实现对应状态在连续空间上的抗干扰策略选择。本发明基。于深度确定梯度策略的强化学习机制完成通信中连续抗干扰策略选择。克服了量化离散处理策略空间带来的量化误差,降低了神经网络输出单元格数和网络复杂度,提高了抗干扰算法性能。
技术领域
本发明属于无线通信技术领域,涉及一种基于深度确定策略梯度强化学习的通信抗干扰方法。
背景技术
随着无线通信技术的发展,无线通信系统面临的电磁环境日益复杂恶劣,既可能会遭受来自己方通信的非故意干扰,也可能会受到敌方故意释放的干扰信号影响。传统的抗干扰手段均针对干扰源的静态干扰方式,采取固定抗干扰策略。随着干扰手段的智能化,干扰源可以根据合法用户通信状态的改变动态调整干扰策略,使得传统抗干扰方法无法保证合法用户在动态干扰环境下的正常通信。因此有必要针对干扰源的动态干扰策略采取相应的智能抗干扰策略,保证合法用户在动态干扰环境下的正常通信。
目前,针对干扰源的动态干扰手段主要采用基于强化学习的方式进行抗干扰策略动态调整。该方法首先对抗干扰策略空间进行离散化处理,构造抗干扰策略集;其次构造与合法用户通信质量相关的效用函数;通过频谱采样和预处理获取环境状态矩阵,并将环境状态矩阵通过深度神经网络实现离散策略选择;最后把选择策略作用于环境并估计环境状态转移。通过多次学习,得到在动态干扰策略下的最优通信策略。具体可参考:Xin Liu,etc., “Anti-jamming Communications Using Spectrum Waterfall:A DeepReinforcement Learning Approach”,IEEE Communication Letters,vol.22,no.5,May.2018。该方法通过对功率选择策略进行量化离散处理,构成功率选择集合。然后构造深度神经网络,并将从无线干扰环境中采样的频谱时隙矩阵通过该神经网络输出对应每个离散功率策略的状态行为函数值。最后通过∈-greedy贪心策略进行功率策略的选择。然而,该方法对功率进行量化离散处理时会引入量化误差,使得功率选择结果无法达到最优。不仅如此,在离散化功率时对于不同子信道上的发射功率,根据量化离散处理规则,构造的策略集合有需要包含N×L个元素,其中N是信道数,是量化级数,对应深度神经网络需要个LN输出。当系统信道数和量化级数过多时,神经网络输出个数成指数增长,增加神经网络的训练和基于∈-greedy贪心策略进行策略选择的复杂度。
发明内容
针对以上技术问题,本发明提出一种基于深度确定策略梯度策略强化学习机制(Deep Deterministic Policy Gradient,DDPG)的通信抗干扰功率选择方法。在对功率策略空间进行离散化的情况下,完成确定抗干扰功率策略的选择,提高抗干扰性能,降低策略选择复杂度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;中国电子科技集团公司第五十四研究所,未经电子科技大学;中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811129485.9/2.html,转载请声明来源钻瓜专利网。