[发明专利]一种深度确定性策略梯度的下行NOMA功率分配方法在审
申请号: | 202011344394.4 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112492691A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 王伟;殷爽爽;吕明海;武聪 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 确定性 策略 梯度 下行 noma 功率 分配 方法 | ||
本发明公开了一种深度确定性策略梯度算法的下行NOMA系统中功率分配方法,方法采用双神经网络结构及经验池回放机制,可以有效处理涉及大规模状态‑动作空间的问题,且降低训练样本之间的相关性,同时,采取确定性策略来选择动作,可以在连续的动作空间中选择动作。算法使用状态信息作为神经网络的输入,并对状态空间、动作空间及奖赏函数根据仿真下行NOMA系统情境进行了相应的设计,其中将上一时刻的信干噪比信息及速率信息作为当前时刻状态信息的组成部分,可以使得智能体更加有效的学习并利用所学习到信息来改进行为策略,经过多次迭代后,得到最优的功率分配策略。该方法可以有效解决下行NOMA系统中多用户的功率分配问题,且在不同的用户数量及基站的发射功率级别下均具备良好的泛化性能,可以有效提升功率分配的合理性,同时运算耗时少,有效提高功率分配的效率。
技术领域
本发明涉及NOMA资源分配领域,特别是涉及一种深度确定性策略梯度算法的下行NOMA系统中功率分配方法。
背景技术
随着无线通信系统中移动终端设备的不断接入及用户密度的不断提高,通信系统中的数据量呈现指数型增长,正交多址接入技术已无法满足高系统容量的需求,为进一步满足用户的业务需求,第五代移动通信系统应运而生,5G技术的主要关注点是数据速率的提高和端到端延迟的减少,以适应无线业务数据量的指数型增长,非正交多址访问(NOMA)被认为是5G通信系统中有前途的技术,其允许多个用户在同一子信道上进行通信,即功率复用,从而提高频谱效率,解决频谱稀缺性问题,在NOMA系统中,如何进行多用户功率的分配与提高系统容量和频谱效率等问题有息息相关,因此,寻找到一种有效的功率分配方案是很有必要的。
目前关于NOMA系统中功率分配的问题已经有了一系列研究,已有的研究方法可以分为基于数值模拟方法、深度学习算法及强化学习算法;其中,基于数值模拟的方法属于传统的求解算法,大多是采用相关优化技术来求解,具有较好的性能;随着电脑硬件,如GRU,人工神经网络等相关技术的更新发展,深度学习技术已具备对大量数据的分析处理能力,已在功率分配领域得到了应用,效果有所提升;基于强化学习的方法是采取“试错”的思想,智能体不断与环境进行交互,学习知识同时更新自身的行为策略,最终获得最优的功率分配策略,深度强化学习引入深度学习技术,兼具分析感知与决策能力,对于复杂的系统具有良好的决策能力,已在功率分配领域得到有效应用。
功率分配问题大多是NP困难的(NP-hard),且具有非凸性,求最优解不是很容易,因此,有很多的研究方法是采用显式的,或者隐式的优化技术,通过迭代计算求得最优解,传统的方法可以有效提高系统性能,但数值模拟的方式没有精确的系统模型,多次迭代计算需要涉及大量的运算,且会消耗大量的时间,无法满足通信系统中对于数据的实时处理要求,而且基于传统的方法不具备自主学习能力,无法适应多变的复杂的通信系统,因此对于实际通信场景的处理不完善。
继传统的优化算法后,有学者提出了使用深度学习技术来解决NOMA系统中的功率分配问题,此类方法采用深度神经网络或其他的变体形式,采用的是监督学习的方式,通过多层神经网络来进行数据特征的提取,学习数据到标签的映射,相对于传统功率分配方法的多次迭代计算,神经网络的运算更为高效,复杂度较低,不过神经网络的训练需要大量的准备好的样本数据,而通信系统中很难获得完美的样本数据,且监督学习的方式需要基准算法来进行训练,其性能会受到基准算法的限制。
相较于深度学习中的监督学习方式,强化学习采取的一种自主学习的策略,智能体不断的学习观测到的环境信息,并不断更新自身的行为选择策略,最终学习到最优的到一个最优的行为控制策略,Q学习算法是最经典的强化学习算法,不过传统的Q学习算法存在“维度灾难”灾难,即无法处理高维度的状态-动作空间问题,且只能处理离散的动作空间,对于连续的动作空间无能为力,深度强化学习通过使用深度神经网络代替传统Q值函数,有效的解决了维度灾难问题,使用最为广泛的为深度Q网络(DQN)算法,但其也存在无法解决连续型动作空间等问题,存在一定的局限性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011344394.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种体育用篮球自动清洁消毒装置
- 下一篇:一种焊接工装及船外板对接的焊接工艺