[发明专利]基于强化学习实现多监听器的合作主动窃听方法有效
申请号: | 202010878680.2 | 申请日: | 2020-08-27 |
公开(公告)号: | CN112087749B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 李保罡;杨亚欣;张淑娥 | 申请(专利权)人: | 华北电力大学(保定) |
主分类号: | H04W12/30 | 分类号: | H04W12/30;H04W12/37;H04K3/00 |
代理公司: | 北京卓岚智财知识产权代理有限公司 11624 | 代理人: | 郭智 |
地址: | 071003 河*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 实现 监听器 合作 主动 窃听 方法 | ||
1.基于强化学习实现多监听器的合作主动窃听方法,其特征在于,所述方法包括:
确定合作主动窃听系统中的主要参数;
在合作主动窃听系统中,根据t时刻信道状态信息以及合法监听器发射干扰功率,生成每个合法监听器的窃听能效函数;
在合作主动窃听系统中,根据要解决的两个合法监听器干扰功率分配问题,确定合作场景的多代理强化学习算法——多代理深度确定性策略梯度算法;
基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听;
其中,所述基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听,具体包括:
①合作主动窃听系统中,MADDPG算法的网络结构建立;
由于状态维数在提出的合作主动窃听问题中较高,且为连续动作空间问题,所以在使用基于Q值迭代时,枚举状态和动作空间所耗费的时间和内存是无法测量的,因此需要利用深度神经网络(DNN)构建函数逼近器,创建学习的代理,在提出的合作主动窃听系统中,两个合法监听器表示两个代理,每个代理包括4个网络,即actor估计网络、actor目标网络、critic估计网络和critic目标网络,其中估计网络与目标网络的结构是一样的,即为包含两层激活函数为ReLU非线性激活函数的隐藏层并由一组权值参数化的全连接的DNN组成,actor估计网络的参数为θ,critic估计网络的参数为ω;actor目标网络的参数为θ′,critic目标网络的参数为ω′,最后,actor和critic目标网络需要根据其估计网络的参数定时更新目标网络参数,直至其收敛不再进行训练;
②在合作主动窃听系统中,MADDPG算法中的状态和动作;
状态:对于每个合法监听器i,从环境获得的状态其中表示可疑链路的信道功率增益,表示可疑发射器T到合法监听器i的信道功率增益,表示合法监听器i到可疑接收器D的信道功率增益,代表合法监听器i自干扰信道的功率增益;
动作:对于每个合法监听器i,需要根据观察的环境状态来发射干扰功率,动作即为
③在合作主动窃听系统中基于MADDPG算法,确定每个合法监听器的目标函数——期望窃听能效;
在强化学习中,策略是一种使长期性能最优化的行动选择策略,因此,需要将一段时间T内的期望窃听能效作为目标函数,Q值的标准定义为从t时刻开始,在状态s下,代理选择动作a的期望返回值,对于代理i,Q值为:
其中rit为代理i的及时奖励,为代理i在状态s下的行为策略,输出的为要执行的动作,最优Q值是对所有决策采取最优行动时可达到的最大值,值函数使用DNN来构建学习代理,得到的值函数逼近器为
因此,每个合法监听器的期望窃听能效为:
其中γ∈(0,1)为折扣因子,θi为合法监听器i的actor估计网络的参数,为t时刻,合法监听器i的及时窃听能效奖励,最优策略为
④初始化网络参数以及所需初始数据;
在强化学习中,需要有初始参数来开始网络训练,因此,首先需要随机初始化actor网络和critic网络的参数θ和ω,由于初始时刻还没有奖励值,因此,对于合法窃听器i,其奖励为ri0=0,即初始时刻窃听能效初始化初始时刻状态信息
⑤合作主动窃听系统中协作干扰功率决策——两个合法监听器协作发射干扰功率;
集中式训练:critic估计网络的输入为两个合法监听器的状态和动作信息,即和这里两个合法监听器的critic网络在训练时可以获得全信息状态,同时也获得了两个合法监听器所采取的策略动作,这样即使actor无法获得全部信息,也无法得知其他actor的策略,每个actor也有一个具有全局信息的critic来指导其来优化策略,这就表现出每个合法监听器在得知另一个合法监听器的策略下更新自己的策略,从而可以实现两个合法监听器之间的合作窃听可疑链路;
actor网络更新方式为:
其中M表示从经验回放池中随机抽取的样本数,上标j表示对于第i个合法监听器的其他合法监听器值的近似,表示critic网络告知actor的基于全局状态信息的期望奖励值,xj表示对于合法监听器i,包括另一个合法监听器j的状态信息,即xj={s1,s2},actor网络需要根据critic网络所给的期望奖励去更新其策略,即如果采取的动作使得critic告知的期望奖励增加,那么actor会增加这个策略梯度方向的值,反之,则减小,因此,actor网络朝着策略梯度提升的方向,从而更新actor网络的参数θ,表示策略的梯度;
critic网络损失函数为:
其中,损失函数为真实Q值与估计Q值之间差值的平方,ai表示当前状态下,合法监听器i采取的动作,表示真实值,ri为及时奖励,表示在目标网络参数θ′i下的目标网络策略,x′为下一时刻的全局状态信息,a′i表示下一时刻所采取的行为动作,对于合法监听器i,critic网络的更新方式为通过最小化其损失函数来更新参数ωi,即L(ωi)对ωi求梯度,并随着梯度下降的方向更新;
对于合法监听器i,actor目标网络和critic目标网络的参数定期更新并采用软更新的方式:
θ′i←τθi+(1-τ)θ′i
ω′i←τωi+(1-τ)ω′i
其中,τ表示保留度参数,即目标网络参数更新过程中保留估计网络参数的程度;
分布式执行:当模型训练好后,即参数收敛,不再变化,只需要两个actor与环境交互,两个合法监听器根据获得的状态信息采取动作,即所需发射的干扰功率;
利用MADDPG算法,集中式训练模型,然后在模型训练好以后分布式执行动作,这样就可以在分布式执行动作时利用已经训练好的模型实现两个合法监听器是以合作的方式来确定干扰功率的分配,从而使期望窃听能效能够达到最优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010878680.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刀片自动加工设备
- 下一篇:一种碳纳米管及其应用