[发明专利]基于深度强化学习的信道接入和能量调度方法、装置在审

申请号：	202310130805.7	申请日：	2023-02-02
公开（公告）号：	CN116113038A	公开（公告）日：	2023-05-12
发明（设计）人：	罗胜;王晓桐;伍楷舜	申请（专利权）人：	深圳大学
主分类号：	H04W72/044	分类号：	H04W72/044;H04W72/0446;H04W72/53;H04W52/02;G06N3/045;G06N3/092
代理公司：	北京市诚辉律师事务所 11430	代理人：	耿慧敏;陈丽
地址：	518060 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习信道接入能量调度方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的信道接入和能量调度方法，其特征在于：

用户设备模块获取用户设备UE i的前T1个时隙信息在每个信道发送成功与否的状态和用户设备UE i的电池剩余容量作为输入信息，将输入信息输入该用户设备UE i对应的训练好的深度强化学习网络，深度强化学习网络输出用户设备UE i的最优动作，i＝1，2，…，N，N为用户设备UE总数，大于等于信道数；

其中：

T1为设定值；

所述动作为用户设备UE i在时隙t时刻选择消耗能量发送信息给接入点或用户设备UE在时隙t时刻选择挂起不发送信息。

2.根据权利要求1所述的方法，其特征在于，用户设备UE i的电池剩余容量满足能量模型；

在能量模型中，用户设备UE i收集能量存放到其对应的电池中，收集能量的过程满足马尔科夫性，若电池容量达到上限B_max，则丢弃多余的能量，用户设备UE i发送信息给接入点消耗能量；

用户设备UE i从时隙t到t+1的电池演变方程为：

B_i[t+1]＝min{B_max，B_i[t-1]-P_i[t]+E_i[t]}

B_i[t+1]为用户设备uE i时隙t+1时刻的电池剩余容量，B_i[t-1]为用户设备UE i时隙t-1时刻的电池剩余容量，P_i[t]为用户设备uE i时隙t时刻发送信息时的能量消耗值，E_i[t]为第i个uE在时隙t时刻收集到的能量。

3.根据权利要求1所述的方法，其特征在于，用户设备UE i前T1个时隙信息在每个信道信息发送成功与否的状态，采用1×(T1×K)的向量H_i[t]记录，其中，K为信道数；从第1个元素开始，每K个元素表示一个时隙的信息发送成功与否的状态，元素值为对应的信道状态，信道状态为信道中能够发送的信息数量值。

4.根据权利要求3所述的方法，其特征在于，信息发送满足信道模型，在信道模型中，如果有超过1个用户设备UE同时选择了同一个信道发送信息，则这个信道上会发生信息碰撞，所有选择这个信道发送信息的用户设备UE都会发送失败，接入点AP收不到信息。

5.根据权利要求1所述的方法，其特征在于，深度强化学习网络的实现包括下述步骤：

S1、将用户设备模块获取的用户设备UE i的输入信息整合为当前状态s_i[t]，i＝1，2，…，N，N为用户设备uE总数；

S2、采用ε-greedy算法选取动作A_i[t]，i＝1，2，…，N；

S3、用户设备uE i执行选取的动作A_i[t]，i＝1，2，…，N；

S4、基于各个用户设备UE的动作A_i[t]，获得动作集合A[t]＝{A_i[t]，i＝1，2，...，N}；

S5、基于动作集合A[t]，获得一个大小为1×N的向量R[t]表示奖励向量，奖励向量中的每个值为对应uE所获得的奖励值，同时使环境状态S[t]转移到下一个状态S[t+1]；

S[t]＝{s_i[t]，i＝1，2，...，N}

S[t+1]＝{s_i[t+1]，i＝1，2，...，N)

R[t]＝{r_i[t]，i＝1，2，...，N}

S6、用户设备模块将UE i对应的s_i[t]，A_i[t]，R_i[t]，s_i[t+1]进行保存并更新深度强化学习网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳大学，未经深圳大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310130805.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载