[发明专利]一种多波束低轨卫星智能动态信道资源分配方法在审
申请号: | 202010033133.4 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111211831A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 谷林海 | 申请(专利权)人: | 东方红卫星移动通信有限公司 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04B17/382 |
代理公司: | 重庆启恒腾元专利代理事务所(普通合伙) 50232 | 代理人: | 万建 |
地址: | 401135 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 波束 卫星 智能 动态 信道 资源 分配 方法 | ||
1.一种多波束低轨卫星智能动态信道资源分配方法,其特征在于,所述方法包括如下步骤:
S1:初始化低轨卫星状态-动作值函数Q(s,a),设定初始学习速率λ和折扣因子β;
S2:低轨卫星通信系统通过星载多波束载荷在地面上形成N个波束表示为B={n|n=1,2,…N};系统中可用的信道集合C={m|m=1,2,…M},其中M为信道资源数;波束n的信道资源分配状态wn=[wn,1,wn,2,…,wn,M],其中每一项wn,m∈{0,1}表示波束n对子信道m的占用情况,1表示占用,0表示空闲未占用;则低轨卫星系统中所有波束的信道分配向量构成了卫星系统总的信道分配矩阵为W=[w1,w2,…,wN];当前各个波束可用的信道资源矩阵V=[v1,v2,…,vN],其中vn=[vn,1,vn,2,…,vn,M]表示每个波束可用的信道资源情况,则构建t时刻的状态
S3:低轨卫星根据构建的状态预测将要采取的动作,从自己的Q值表征模块获取Q值;
S4:低轨卫星根据所处的环境和状态从可行动作集合Α(st)中依概率ε选择具有最大Q值的动作去执行;
S5:在低轨卫星每达到终止状态后给一个奖赏函数r;
S6:低轨卫星将状态-动作值函数Q(s,a)带入Bellman公式中进行迭代更新,根据奖赏函数r作为估计来选择下一步动作,并优化状态-动作值函数;
S7:每轮迭代结束时,折扣因子β进行更新,并判断折扣因子β是否小于0.01;若是,得到信道分配结果Wt;若不是,返回步骤S6。
2.根据权利要求1所述的方法,其特征在于,所述各个波束可用的信道资源vn矢量中的每个元素取值及所代表的意义如下:
3.根据权利要求1所述的方法,其特征在于,所述动作at表示在状态st下可用的信道资源集合中,选取波束n,为其分配信道资源m,其计算表达式为:at={(n,m)|n,m∈Α(st),n∈B,m∈M}。
4.根据权利要求1所述的方法,其特征在于,所述状态-动作值函数Q(s,a)带入Bellman公式中进行迭代更新的计算表达式为:Q(si,ai)=(1-λ)Q(si,ai)+λ(ri+βmaxQ(si,a))。
5.根据权利要求1所述的方法,其特征在于,所述折扣因子β需满足β∈[0,1),设置它以e的负指数规律随着学习的过程逐渐减小,以满足学习的收敛性要求。
6.根据权利要求1所述的方法,其特征在于,将奖赏函数r设计为与系统性能正相关的标量值,以系统阻塞概率来衡量系统性能,即优化目标是系统的阻塞用户数量最小,考虑到每种业务请求时刻下,根据各波束业务请求用户量学习出一种信道资源最优分配方式,则设计的奖赏函数r应与终止状态时的系统性能有关,故在低轨卫星每达到终止状态后给一个奖赏函数r,其中奖赏函数r计算表达式如下:
其中,Rmax表示的最大的奖赏值,为一标量正值;Ublock表示当前系统阻塞用户数,Uall表示系统中总共请求业务的用户数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东方红卫星移动通信有限公司,未经东方红卫星移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010033133.4/1.html,转载请声明来源钻瓜专利网。