[发明专利]一种非协作下基于Q学习的共存方法在审
申请号: | 202210036364.X | 申请日: | 2022-01-13 |
公开(公告)号: | CN114374977A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 裴二荣;柳祚勇;陈俊林;陈新虎;倪剑雄 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04W16/14 | 分类号: | H04W16/14;H04W24/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协作 基于 学习 共存 方法 | ||
1.一种非协作下基于Q学习的共存方法,其特征在于:具体步骤如下:
S1:设置D2D占空比的动作集合A={TDmin,TDmin+X,TDmin+2X,...,TDmax};和状态集合S={S1,S2,S3},初始化矩阵为零阶矩阵,基站去探测信道初始状态信息;
S2:基站根据ε-greedy选择策略选择一个动作At,At∈A;
S3:基站通过执行动作At同时在Wi-Fi系统使用阶段去探测信道使用情况,即在一个周期内信道处于繁忙状态时间,从而计算出当前动作下的系统的吞吐量和频谱利用率,获取当前选择的动作At的奖励r(St,At);
S4:根据Q学习的Q表公式来更新Q表,基站进入下一个状态;
S5:重复执行S2~S4,直到选择的动作达到目标状态,结束一次迭代;
S6:令t←t+1,重复执行步S2~S5,直至Q矩阵收敛,根据Q矩阵选择出最优的D2D占空比分配序列。
2.根据权利要求1所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S1中对于动作集合A={TDmin,TDmin+X,TDmin+2X,...,TDmax},该集合中每一个动作元素表示不同的D2D占空比,其中TDmin和TDmax分别表示D2D占空比最小阈值和最大阈值,X表示步长,X越大表示动作集合A中元素之间取值跨度越大,同时动作集合A中元素个数越少,与此相反,X越小表示动作集合A中元素之间取值跨度越小,同时动作集合A中元素个数越多,这里X的取值与周期长度和D2D占空比阈值有关,X∈(0,TDmax-TDmin],同时还应满足其中Z为整数。
对于状态集合S={S1,S2,S3},集合中每一个状态St都是由吞吐量Rt和频谱利用率Ft组成,对于状态St中的吞吐量Rt,表示D2D系统和Wi-Fi系统吞吐量之和,其定义为:
Rt=RD2D+RWiFi
其中,RD2D和RWiFi分别表示D2D和Wi-Fi的吞吐量,TD表示在一个周期时间资源TF中D2D所占用的时间,TWB表示在Wi-Fi系统使用的时间资源TW里,信道处于繁忙的时间,TW表示智能体基站分配给Wi-Fi系统所用的时间资源。
对于状态St中的频谱利用率Ft,定义频谱利用率函数定义为:
其中TW表示智能体基站分配给Wi-Fi系统所用的时间资源。
根据预定义的吞吐量和频谱利用率阈值,将所得到的状态分为三种:低吞吐量低频谱利用率、高吞吐量低频谱利用率和高吞吐量高频谱利用率。其中高吞吐量高频谱利用率是系统所要达到的状态目标,定义状态如下所示:
其中,Rmin和Fmin分别表示系统吞吐量和频谱利用率的最小阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210036364.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:稳定均一纳米孔的制备方法
- 下一篇:便捷式电缆附件制作培训装置