[发明专利]一种深度确定性策略梯度的下行NOMA功率分配方法在审
申请号: | 202011344394.4 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112492691A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 王伟;殷爽爽;吕明海;武聪 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 确定性 策略 梯度 下行 noma 功率 分配 方法 | ||
1.一种深度确定性策略梯度的下行NOMA功率分配方法,其特征在于使用深度确定性策略梯度算法实现下行NOMA系统的功率分配,其包括如下:算法中共包含四个神经网络,演员模块和评论家模块分别使用双神经网络结构;使用经验池回放机制进行训练,解决训练样本间存在的时间相关性问题;对算法中状态、动作及奖赏函数分别进行对应设计,使智能体可以更加有效的自主学习;采用集中式的训练方式,经过多次迭代,最终得到最优的功率分配策略;通过功率分配使NOMA系统中的多个用户处于不同的、恰当的功率级别,在最大功率的限制下,最大程度提升系统的中传输速率,从而提升NOMA系统的总体通信性能和用户的通信体验。
2.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,初始化下行NOMA系统环境,包含基站及多个终端用户,考虑到接收端解码的复杂度,考虑一个子信道上包含两个用户的情况,初始化状态作为神经网络的输入。
3.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,状态包含四个部分,第一个部分是上一时隙智能体所达到的和速率,第二部分是上一时隙智能体上两个用户各自的SINR信息,第三部分是上一时隙智能体上两个用户各自所达到的传输速率,第四部分是当前时隙智能体所采取的功率分配比例因子,状态表示为:
其中,表示上一时隙智能体所达到的和速率,表示上一时隙智能体上两个用户各自的SINR信息,表示上一时隙智能体上两个用户各自所达到的传输速率,表示当前时隙智能体所采取的功率分配比例因子。
4.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,动作集合是一个连续值集合,取值范围从0到1,但不包含0和1;集合表示为:
A=(0,...,βn,...,1)
其中,βn表示子信道上两个用户之间的功率分配比例因子。
5.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,将初始状态信息输入当前演员神经网络,输出智能体所要采取的动作;在达到固定迭代次数及固定时隙时,从经验池中随机抽取批次数据输入神经网络进行训练,计算当前演员网络和当前评论家网络的损失函数,通过梯度下降法更新两个网络的参数;目标演员网络和目标评论家网络是采取的“软更新”的方式,来更新网络权重参数,表示如下:
其中,τ表示参数更新幅度大小。
6.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,奖赏函数的设计,是通过设置当前时隙所有智能体所能达到的传输速率总和,计算公式为:
7.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,采用双神经网络结构及经验回放机制,有效分析处理大量数据,并且避免训练样本之间存在的时间相关性,提升神经网络的性能;所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,对状态集合、动作集合及奖赏函数根据仿真NOMA系统环境进行对应设计,进行神经网络的训练;所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,对两个目标神经网络的参数更新采取“软更新”的方式,每次更新一部分,而不是完全复制两个当前神经网络的参数;通过训练神经网络,最终得到最优的功率分配策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011344394.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种体育用篮球自动清洁消毒装置
- 下一篇:一种焊接工装及船外板对接的焊接工艺