[发明专利]一种非协作下基于Q学习的共存方法在审

申请号：	202210036364.X	申请日：	2022-01-13
公开（公告）号：	CN114374977A	公开（公告）日：	2022-04-19
发明（设计）人：	裴二荣;柳祚勇;陈俊林;陈新虎;倪剑雄	申请（专利权）人：	重庆邮电大学
主分类号：	H04W16/14	分类号：	H04W16/14;H04W24/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	400065***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种协作基于学习共存方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种非协作下基于Q学习的共存方法，其特征在于：具体步骤如下：

S1：设置D2D占空比的动作集合A＝{T_Dmin，T_Dmin+X,T_Dmin+2X,...,T_Dmax}；和状态集合S＝{S₁,S₂,S₃}，初始化矩阵为零阶矩阵，基站去探测信道初始状态信息；

S2：基站根据ε-greedy选择策略选择一个动作A_t，A_t∈A；

S3：基站通过执行动作A_t同时在Wi-Fi系统使用阶段去探测信道使用情况，即在一个周期内信道处于繁忙状态时间，从而计算出当前动作下的系统的吞吐量和频谱利用率，获取当前选择的动作A_t的奖励r(S_t,A_t)；

S4：根据Q学习的Q表公式来更新Q表，基站进入下一个状态；

S5：重复执行S2～S4，直到选择的动作达到目标状态，结束一次迭代；

S6：令t←t+1，重复执行步S2～S5，直至Q矩阵收敛，根据Q矩阵选择出最优的D2D占空比分配序列。

2.根据权利要求1所述的一种非协作下基于Q学习的共存方法，其特征在于：在步骤S1中对于动作集合A＝{T_Dmin，T_Dmin+X,T_Dmin+2X,...,T_Dmax}，该集合中每一个动作元素表示不同的D2D占空比，其中T_Dmin和T_Dmax分别表示D2D占空比最小阈值和最大阈值，X表示步长，X越大表示动作集合A中元素之间取值跨度越大，同时动作集合A中元素个数越少，与此相反，X越小表示动作集合A中元素之间取值跨度越小，同时动作集合A中元素个数越多，这里X的取值与周期长度和D2D占空比阈值有关，X∈(0,T_Dmax-T_Dmin]，同时还应满足其中Z为整数。

对于状态集合S＝{S₁,S₂,S₃}，集合中每一个状态S_t都是由吞吐量R_t和频谱利用率F_t组成，对于状态S_t中的吞吐量R_t，表示D2D系统和Wi-Fi系统吞吐量之和，其定义为：

R_t＝R^D2D+R^WiFi

其中，R^D2D和R^WiFi分别表示D2D和Wi-Fi的吞吐量，T_D表示在一个周期时间资源T_F中D2D所占用的时间，T_WB表示在Wi-Fi系统使用的时间资源T_W里，信道处于繁忙的时间，T_W表示智能体基站分配给Wi-Fi系统所用的时间资源。

对于状态S_t中的频谱利用率F_t，定义频谱利用率函数定义为：

其中T_W表示智能体基站分配给Wi-Fi系统所用的时间资源。

根据预定义的吞吐量和频谱利用率阈值，将所得到的状态分为三种：低吞吐量低频谱利用率、高吞吐量低频谱利用率和高吞吐量高频谱利用率。其中高吞吐量高频谱利用率是系统所要达到的状态目标，定义状态如下所示：

其中，R_min和F_min分别表示系统吞吐量和频谱利用率的最小阈值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210036364.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W16-00 网络规划，例如覆盖或业务量规划工具；网络配置，例如资源划分或小区结构
H04W16-02 .在各网络组成部分当中的资源划分，例如，再用划分
H04W16-14 .频谱共享装置
H04W16-18 .网络规划工具
H04W16-22 .业务量模拟工具或模型
H04W16-24 .小区结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种非协作下基于Q学习的共存方法在审

专利文献下载