[发明专利]一种非协作下基于Q学习的共存方法在审

专利信息
申请号: 202210036364.X 申请日: 2022-01-13
公开(公告)号: CN114374977A 公开(公告)日: 2022-04-19
发明(设计)人: 裴二荣;柳祚勇;陈俊林;陈新虎;倪剑雄 申请(专利权)人: 重庆邮电大学
主分类号: H04W16/14 分类号: H04W16/14;H04W24/02
代理公司: 暂无信息 代理人: 暂无信息
地址: 400065*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 协作 基于 学习 共存 方法
【权利要求书】:

1.一种非协作下基于Q学习的共存方法,其特征在于:具体步骤如下:

S1:设置D2D占空比的动作集合A={TDmin,TDmin+X,TDmin+2X,...,TDmax};和状态集合S={S1,S2,S3},初始化矩阵为零阶矩阵,基站去探测信道初始状态信息;

S2:基站根据ε-greedy选择策略选择一个动作At,At∈A;

S3:基站通过执行动作At同时在Wi-Fi系统使用阶段去探测信道使用情况,即在一个周期内信道处于繁忙状态时间,从而计算出当前动作下的系统的吞吐量和频谱利用率,获取当前选择的动作At的奖励r(St,At);

S4:根据Q学习的Q表公式来更新Q表,基站进入下一个状态;

S5:重复执行S2~S4,直到选择的动作达到目标状态,结束一次迭代;

S6:令t←t+1,重复执行步S2~S5,直至Q矩阵收敛,根据Q矩阵选择出最优的D2D占空比分配序列。

2.根据权利要求1所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S1中对于动作集合A={TDmin,TDmin+X,TDmin+2X,...,TDmax},该集合中每一个动作元素表示不同的D2D占空比,其中TDmin和TDmax分别表示D2D占空比最小阈值和最大阈值,X表示步长,X越大表示动作集合A中元素之间取值跨度越大,同时动作集合A中元素个数越少,与此相反,X越小表示动作集合A中元素之间取值跨度越小,同时动作集合A中元素个数越多,这里X的取值与周期长度和D2D占空比阈值有关,X∈(0,TDmax-TDmin],同时还应满足其中Z为整数。

对于状态集合S={S1,S2,S3},集合中每一个状态St都是由吞吐量Rt和频谱利用率Ft组成,对于状态St中的吞吐量Rt,表示D2D系统和Wi-Fi系统吞吐量之和,其定义为:

Rt=RD2D+RWiFi

其中,RD2D和RWiFi分别表示D2D和Wi-Fi的吞吐量,TD表示在一个周期时间资源TF中D2D所占用的时间,TWB表示在Wi-Fi系统使用的时间资源TW里,信道处于繁忙的时间,TW表示智能体基站分配给Wi-Fi系统所用的时间资源。

对于状态St中的频谱利用率Ft,定义频谱利用率函数定义为:

其中TW表示智能体基站分配给Wi-Fi系统所用的时间资源。

根据预定义的吞吐量和频谱利用率阈值,将所得到的状态分为三种:低吞吐量低频谱利用率、高吞吐量低频谱利用率和高吞吐量高频谱利用率。其中高吞吐量高频谱利用率是系统所要达到的状态目标,定义状态如下所示:

其中,Rmin和Fmin分别表示系统吞吐量和频谱利用率的最小阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210036364.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top