[发明专利]基于深度强化学习的信道接入和能量调度方法、装置在审
申请号: | 202310130805.7 | 申请日: | 2023-02-02 |
公开(公告)号: | CN116113038A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 罗胜;王晓桐;伍楷舜 | 申请(专利权)人: | 深圳大学 |
主分类号: | H04W72/044 | 分类号: | H04W72/044;H04W72/0446;H04W72/53;H04W52/02;G06N3/045;G06N3/092 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏;陈丽 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 信道 接入 能量 调度 方法 装置 | ||
1.一种基于深度强化学习的信道接入和能量调度方法,其特征在于:
用户设备模块获取用户设备UE i的前T1个时隙信息在每个信道发送成功与否的状态和用户设备UE i的电池剩余容量作为输入信息,将输入信息输入该用户设备UE i对应的训练好的深度强化学习网络,深度强化学习网络输出用户设备UE i的最优动作,i=1,2,…,N,N为用户设备UE总数,大于等于信道数;
其中:
T1为设定值;
所述动作为用户设备UE i在时隙t时刻选择消耗能量发送信息给接入点或用户设备UE在时隙t时刻选择挂起不发送信息。
2.根据权利要求1所述的方法,其特征在于,用户设备UE i的电池剩余容量满足能量模型;
在能量模型中,用户设备UE i收集能量存放到其对应的电池中,收集能量的过程满足马尔科夫性,若电池容量达到上限Bmax,则丢弃多余的能量,用户设备UE i发送信息给接入点消耗能量;
用户设备UE i从时隙t到t+1的电池演变方程为:
Bi[t+1]=min{Bmax,Bi[t-1]-Pi[t]+Ei[t]}
Bi[t+1]为用户设备uE i时隙t+1时刻的电池剩余容量,Bi[t-1]为用户设备UE i时隙t-1时刻的电池剩余容量,Pi[t]为用户设备uE i时隙t时刻发送信息时的能量消耗值,Ei[t]为第i个uE在时隙t时刻收集到的能量。
3.根据权利要求1所述的方法,其特征在于,用户设备UE i前T1个时隙信息在每个信道信息发送成功与否的状态,采用1×(T1×K)的向量Hi[t]记录,其中,K为信道数;从第1个元素开始,每K个元素表示一个时隙的信息发送成功与否的状态,元素值为对应的信道状态,信道状态为信道中能够发送的信息数量值。
4.根据权利要求3所述的方法,其特征在于,信息发送满足信道模型,在信道模型中,如果有超过1个用户设备UE同时选择了同一个信道发送信息,则这个信道上会发生信息碰撞,所有选择这个信道发送信息的用户设备UE都会发送失败,接入点AP收不到信息。
5.根据权利要求1所述的方法,其特征在于,深度强化学习网络的实现包括下述步骤:
S1、将用户设备模块获取的用户设备UE i的输入信息整合为当前状态si[t],i=1,2,…,N,N为用户设备uE总数;
S2、采用ε-greedy算法选取动作Ai[t],i=1,2,…,N;
S3、用户设备uE i执行选取的动作Ai[t],i=1,2,…,N;
S4、基于各个用户设备UE的动作Ai[t],获得动作集合A[t]={Ai[t],i=1,2,...,N};
S5、基于动作集合A[t],获得一个大小为1×N的向量R[t]表示奖励向量,奖励向量中的每个值为对应uE所获得的奖励值,同时使环境状态S[t]转移到下一个状态S[t+1];
S[t]={si[t],i=1,2,...,N}
S[t+1]={si[t+1],i=1,2,...,N)
R[t]={ri[t],i=1,2,...,N}
S6、用户设备模块将UE i对应的si[t],Ai[t],Ri[t],si[t+1]进行保存并更新深度强化学习网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310130805.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锅炉自动注水装置及其方法
- 下一篇:一种防污卫浴陶瓷及其制备方法