[发明专利]一种快速收敛的最优信道选择方法有效
申请号: | 202010534314.5 | 申请日: | 2020-06-11 |
公开(公告)号: | CN111711931B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 陈春梅;杨世恩;蒋和松 | 申请(专利权)人: | 西南科技大学 |
主分类号: | H04W4/38 | 分类号: | H04W4/38;H04W28/02;H04W84/18;H04L25/02 |
代理公司: | 成都时誉知识产权代理事务所(普通合伙) 51250 | 代理人: | 何悦 |
地址: | 621000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 收敛 最优 信道 选择 方法 | ||
1.一种快速收敛的最优信道选择方法,其特征在于,包括以下步骤;
S1,建立基于G-E马尔可夫信道的状态转移模型,为每个信道的每个时隙生成G-E信道状态,将每个信道定义为一个臂;
S2,对每个臂访问一次,获得每个臂的初始奖励值;
S3,选择当前最优臂并计算其平均收益;
S4,采用基于状态统计信息而构建的新的去更新最优臂的置信上界,具体包括以下子步骤:
S4.1,根据初始奖励值的平均值计算公式,通过UCB1策略可得期望的置信上界:
式中,为利用因子, 为探索因子;
S4.2,将探索因子重新表示,新探索因子为:
其中,表示与信道i的方差相关的偏差因子,反映信道i的一系列瞬时增益的波动,动态调整次优解的探索间隔,降低探索成本,表达式是:
式中,为信道i的瞬时增益方差,瞬时增益平均值减去信道i的实际经验增益平均值的平方,即:
得到UCB-V求解方程,其置信上界为:
S4.3,通过UCB-V,下一个要选择的最优信道将由当前的值确定,基于Bellman方程,即可以得到最优信道
S4.4,新探索因子与信道质量相关,信道的信道质量的置信因子被定义为:
式中,是信道质量的置信因子,它表示信道i的利用贡献,信道状态集内期望置信因子的理想最大值定义为,每个信道i的质量间隙定义为:
越大, 越小,信道质量越好;
S4.5,定义两个系数和 ,得到一个新的改进方程:
其中,和分别是探索因子和信道质量置信度的权重系数,如果和中的一个或两个都增加,则将增加,这意味着系统更加信任当前信道i,并且它被选中的可能性更大,相反,如果和减少,系统将探索其它更多的信道以期望获得更好的结果,因此,选择最佳信道的公式可以重写为:
;
S5,重复步骤S2,S3与S4,直到收敛到最优信道。
2.根据权利要求1所述的一种快速收敛的最优信道选择方法,其特征在于,所述步骤S1中的G-E马尔可夫信道的状态有两种,忙用0表示和闲用1表示,有限状态空间定义为S={0,1}。
3.根据权利要求2所述的一种快速收敛的最优信道选择方法,其特征在于,所述状态转移模型中的授权信道状态转移概率矩阵以及状态分布表示为:
其中,λ0和λ1是信道信念值的边界,信道是正相关,即λ0≤λ1,基于G-E马尔可夫特性,系统的下一个状态可基于当前状态由转移概率计算得出。
4.根据权利要求3所述的一种快速收敛的最优信道选择方法,其特征在于,所述步骤S2中的最优臂的平均收益通过以下公式计算:设在n个时隙之后,选择了第i个信道次,那么初始奖励值的平均值可以表示为:
其中,是时隙t处选择信道i获得的实际的初始奖励值。
5.根据权利要求4所述的一种快速收敛的最优信道选择方法,其特征在于,所述
当信道状态为忙时,传输将失败,则系统回报为的惩罚,当信道状态为空闲时,传输将成功,并给予的初始奖励值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010534314.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种板件支撑机构及钣金折弯机
- 下一篇:一种腐植酸尿素复合肥及制备方法