[发明专利]一种无线通信中性能切换与用户服务质量联合优化方法有效
申请号: | 202010303048.5 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111526527B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 潘志文;曹琪;刘楠;尤肖虎 | 申请(专利权)人: | 东南大学;网络通信与安全紫金山实验室 |
主分类号: | H04W24/02 | 分类号: | H04W24/02 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无线通信 性能 切换 用户 服务质量 联合 优化 方法 | ||
1.一种无线通信中性能切换与用户服务质量联合优化方法,其特征在于,所述方法基于强化学习过程,首先将用户服务质量评价指标、切换性能评价指标和乒乓切换率结合作为切换参数的优化目标,然后将切换参数优化抽象为马尔科夫决策过程,通过无模型进行强化学习,通过基站本身与网络环境的交互,对每一个状态-动作对训练得到一个Q值来评估在当前网络状态下使用对应的切换参数组合所获得的奖励期望值,最后根据训练好的策略对后续切换参数组合进行选择,以提高无线通信系统的切换性能
该方法包含以下步骤:
(1)采集网络信息,并初始化切换参数,所述的切换参数为切换迟滞参数HOM和切换触发时间TTT,并初始化自定义优化周期T和初 始化Q学习参数;
其中,所述的初始 化Q学习参数包括Q表Q(s,a),学习速率α,折扣因子γ,初始探索率εinit,控制参数a和控制参数b;
(2)通过强化学习获得最优切换参数选取策略π*(s),使在特定网络状态s下选取未来切换性能最优的切换参数组合a;具体步骤如下:
(21)初始化t=1,由基站统计上一优化周期内的切换性能指标,包括切换失败率、乒乓切换率和用户服务质量评价指标,得到状态st;
(22)在当前切换性能指标状态st下,通过ε-贪心法根据Q表选取切换参数组合HOM-TTT,记为at;
在当前切换性能指标状态st下,以1-ε的概率选取Q表中使得Q值最大的切换参数组合或以ε的概率随机选取任意一切换参数组合,ε定义如下:
其中,εinit为ε的初始值,控制参数a和b决定ε的减小速度;随着迭代次数t的增加,ε的值将会逐渐减小,选择使得未来累积回报最大的切换参数组合;
(23)将原切换参数组合替换为at直至下一优化周期结束的t+1时刻;
(24)令t=t+1,重复步骤(21),得到当前优化周期内切换性能指标集合,记为st+1,并由空间状态及回报函数计算得所选切换参数组合相较原切换参数组合获得的回报rt+1;
(25)根据切换参数替换后转移至的状态st+1与获得的回报rt+1更新Q(st,at),计算表达式如下:
其中,α∈[0,1]为学习速率,用于衡量之前训练结果与未来训练结果的保留比重;γ∈[0,1]为折扣因子,用于衡量当前回报与未来回报的比重;
(26)重复步骤(22)至步骤(25),直至Q表收敛;
(27)退出迭代,获得最优策略π*(s);
(28)根据最优策略π*(s)在任一网络状态下找到最优的切换参数组合HOM-TTT,使得综合切换性能达到最优;
其中,切换参数优化基于马尔科夫决策过程,包括以三元组<A,S,R>来表示决策,其中A表示可选切换参数组合的集合,S表示网络性能的状态集合,R表示所选切换参数组合给当前网络状态带来的反馈。
2.根据权利要求1所述的无线通信中性能切换与用户服务质量联合优化方法,其特征在于,所述的概率值ε初始值选取为0.8到1之间。
3.根据权利要求1所述的无线通信中性能切换与用户服务质量联合优化方法,其特征在于:所述方法中用户服务质量评价指标为无线通信系统的平均吞吐量;切换性能评价指标为切换失败率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学;网络通信与安全紫金山实验室,未经东南大学;网络通信与安全紫金山实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010303048.5/1.html,转载请声明来源钻瓜专利网。