[发明专利]一种集成地面卫星网络的能效优化方法及装置有效
申请号: | 202011280697.4 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112543049B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 张海君;李孝楠;隆克平 | 申请(专利权)人: | 北京科技大学 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W24/02;H04W24/06;H04W52/38;G06N3/08;H04W84/06 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集成 地面 卫星网络 能效 优化 方法 装置 | ||
1.一种集成地面卫星网络的能效优化方法,其特征在于,所述方法包括:
构建集成地面卫星网络系统模型;其中,所述集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为多个用户提供服务;
将所述集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
将所述集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化;
其中,采用基于MADDPG的多智能体深度强化学习框架实现系统的能效优化,包括:
S1,随机初始化神经网络的相关参数和神经网络的回放经验池;
S2,对于每个回合,初始化集成地面卫星网络场景的参数和系统观测空间;
S3:对于每个回合的每个步长,每个智能体观测得到自己这个时隙的状态;
S4:每个智能体根据探索和策略选择动作,选择基站或卫星接入和选择功率控制因子,并执行选择的动作;根据所选择的动作计算此时隙的奖励,观测下一个状态,并将观测值、动作、奖励和下一个观测值存入回放经验池;
S5:对于每个智能体,当回放经验池中的经验数量满足预设数量要求时,从回放经验池中随机抽取一批数据,并根据抽取的数据更新神经网络相关参数;
S6:当长期奖励函数维持在预设的范围内不再上升时,终止优化过程。
2.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,在所述集成地面卫星网络系统中,用户与基站及卫星通过NOMA技术实现通信。
3.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,所述S1中随机初始化神经网络的相关参数,包括:
随机初始化actor网络和critic网络的相关参数。
4.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,所述S2中初始化集成地面卫星网络场景的参数,包括:
初始化基站和卫星的最大发射功率、用户与基站及卫星间的信道增益。
5.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,所述S3在每个智能体观测得到自己这个时隙的状态之后,还包括:
判断当前时隙的能量效率是否大于上个时隙的能量效率;
若当前时隙的能量效率大于上个时隙的能量效率,则得到的状态为1;
若当前时隙的能量效率不大于上个时隙的能量效率,则得到的状态为0。
6.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,所述S4中基于MADDPG的多智能体深度强化学习框架输出策略值为连续值。
7.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,所述S4中根据所选择的动作计算此时隙的奖励,包括:
将每个智能体当前时隙的能量效率作为它的奖励值,奖励值为:
其中,EEm(t)表示第m个智能体在t时刻的能量效率,和表示第m个智能体在t时刻与第n个基站或第l个卫星的连接状态,SINRBm(t)和SINRSm(t)表示第m个智能体在t时刻与基站或卫星相连接的信噪比,pm(t)和ps,m(t)表示第m个智能体的功率。
8.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,所述S5中更新神经网络相关参数,包括:
actor网络通过梯度下降更新网络相关参数,critic网络通过更新Q函数来最小化损失函数。
9.一种集成地面卫星网络的能效优化装置,其特征在于,所述装置包括:
集成地面卫星网络系统模型构建模块,用于构建集成地面卫星网络系统模型;其中,所述集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为多个用户提供服务;
能效优化问题建模模块,用于将所述集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
集成地面卫星网络的能效优化模块,用于将所述集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化;
其中,采用基于MADDPG的多智能体深度强化学习框架实现系统的能效优化,包括:
S1,随机初始化神经网络的相关参数和神经网络的回放经验池;
S2,对于每个回合,初始化集成地面卫星网络场景的参数和系统观测空间;
S3:对于每个回合的每个步长,每个智能体观测得到自己这个时隙的状态;
S4:每个智能体根据探索和策略选择动作,选择基站或卫星接入和选择功率控制因子,并执行选择的动作;根据所选择的动作计算此时隙的奖励,观测下一个状态,并将观测值、动作、奖励和下一个观测值存入回放经验池;
S5:对于每个智能体,当回放经验池中的经验数量满足预设数量要求时,从回放经验池中随机抽取一批数据,并根据抽取的数据更新神经网络相关参数;
S6:当长期奖励函数维持在预设的范围内不再上升时,终止优化过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011280697.4/1.html,转载请声明来源钻瓜专利网。