[发明专利]基于双向长短时记忆网络的动态频谱接入方法有效
申请号: | 202011505701.2 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112672359B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 高玉龙;陈鹏;郭士增 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | H04W16/14 | 分类号: | H04W16/14;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 杨晓辉 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 短时记忆 网络 动态 频谱 接入 方法 | ||
1.基于双向长短时记忆网络的动态频谱接入方法,其特征在于,该动态频谱接入方法包括:
通信系统在正交频分多址的情况下,每个信道固定分配给一个主用户,主用户依据自主接入策略传输信息,次级用户在每个时隙依据历史动作数据预测信道占用状态,并选取其中一个未占用信道传输信息;
次级用户传输信息的方法包括:
采用双向长短时记忆网络优化DQN强化学习算法,形成DBRQN算法模型;
将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞;
次级用户感知预测到的动态频谱空洞,获取最优信道接入策略,然后动态接入空闲频谱空洞,实现动态频谱共享;
DBRQN算法模型的训练方法包括:
S2-1、初始化多个主用户的参数和信道占用情况;
S2-2、初始化次级用户智能体的网络权重参数,同时初始化经验回放池;
S2-3、次级用户输入历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据,输出值Q最大的最优动作,同时输出一个0至1的随机数,当随机数大于预先设置的阈值时选取输出的值Q最大的最优动作,当随机数小于预先设置的阈值时采用随机动作进行随机探索;逐步减小阈值,使随机探索的概率随训练的进行逐步减小;
S2-4、将历史动作数据输入环境模拟器,从环境模拟器的反馈获取奖赏,当环境模拟器中的历史动作数据传输成功获得正反馈,当环境模拟器中的历史动作数据传输未成功获得负反馈;同时,环境模拟器自动生成下一个状态;环境模拟器根据获取的奖赏和下一个状态合并生成下一个时隙的输入向量;
S2-5、将动作S2-4获取的奖赏、下一个状态和下一个状态的动作组成元组,将该元组存入经验回放池;
S2-6、从经验回放池中随机选取训练数据进行网络训练,更新网络权重参数;
S2-7、判断更新网络权重参数过程中的网络估计误差是否小于阈值,否则返回执行S2-3,是则执行S2-8;
判断更新网络权重参数过程中的训练步数是否达到预设的最大训练步长值,否则返回执行S2-3,是则执行S2-8;
S2-8、DBRQN算法模型训练完成,保存当前训练参数;
S2-4所述历史动作数据为:
动作A=(a0,a1,a2,…,an),其中,n表示信道总数,ai,i=0,1…,n表示选取对应的信道i进行接入及信息传输;
特别的,次级信道在a0时隙退避,不进行信息传输;
动作均以独热编码形式给出,即对应位置为1,其余位置为0;
选取动作后获得当前动作的环境反馈确认字符,反馈集合为R={0,1},0表示所选信道已被占用且传输失败,1表示所选信道空闲且传输成功;
S2-4所述奖赏包括:
获取最大累计折扣奖赏对应的最优策略:
采用折扣回报表示t时刻的状态具备的回报Gt:
其中,λ表示累计折扣因子,Rt+k+1表示t+k+1时刻的反馈集合,k表示叠加上下界符号;
S2-6所述更新网络权重参数的方法包括:
采用值函数Q(s,a)表示当前状态s、当前状态对应动作a的优劣,结合贝尔曼方程与时间差分方法对值函数进行更新:
Q(st,at)←Q(st,at)+α(Rt+1+λmaxaQ(st+1,at+1)-Q(st,at));
其中,α表示学习步长,表征更新速率;
当面对连续状态或状态集合较大时,采用结合深度学习的多层神经网络代替价值函数估计器,使用多层全连接网络,形成DQN强化学习算法,通过梯度反向传播算法最小化网络估计误差进行网络权重训练,网络估计误差为:
L(w)=E[(r+γmaxa'Q(s',a',w)-Q(s,a,w))2];
其中,E表示对作用对象求期望,r表示采取动作后的即时奖赏,γ表示折扣因子,w表示网络的权重参数,s'表示下一个状态,a'表示下一个动作。
2.根据权利要求1所述的基于双向长短时记忆网络的动态频谱接入方法,其特征在于,将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞,次级用户感知预测到的动态频谱空洞,获取最优信道接入策略的方法包括:
S6-1、初始化主用户的参数和信道占用情况;
S6-2、将训练好的DBRQN算法模型加载到新的网络模型中;
S6-3、次级用户将输入数据上传至S6-2获取的网络模型中,选取网络模型值Q最大的输出作为当前时刻的动作数据,网络模型同时输出动作数据;
所述输入数据包括历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据;
S6-4、将当前时刻的动作数据输入环境模拟器,获取奖赏和下一个状态,生成下一个时隙的输入向量;
S6-5、判断测试步数是否达到预设的最大测试步长值,否则返回执行S6-3,是则执行S6-6;
S6-6、统计网络模型输出的各动作数据,计算成功率和冲突率,并绘制相应曲线;
S6-7、根据成功率和冲突率选取最优信道接入策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011505701.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种不含硫的新型防锈油
- 下一篇:一种建筑逃生结构以及快装式逃生器