[发明专利]一种基于约束强化学习的通信感知联合优化方法及系统在审
申请号: | 202310209925.6 | 申请日: | 2023-03-07 |
公开(公告)号: | CN116367337A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 王玺钧;马力斐;陈翔 | 申请(专利权)人: | 中山大学 |
主分类号: | H04W72/542 | 分类号: | H04W72/542;G06F17/11;G06N7/01 |
代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 梁嘉朗 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 约束 强化 学习 通信 感知 联合 优化 方法 系统 | ||
1.一种基于约束强化学习的通信感知联合优化方法,其特征在于,包括以下步骤:
将通信感知系统建模为一个约束马尔可夫决策过程,并确定优化目标和约束条件;
构建策略网络、值网络和拉格朗日乘子并采集样本数据;
基于优化目标和约束条件,通过样本数据对策略网络、值网络和拉格朗日乘子进行更新训练,得到训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子;
通信感知系统基于训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子进行信息交互。
2.根据权利要求1所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述约束马尔可夫决策过程其具体包括系统状态空间、系统动作空间和奖励函数,其表达式具体如下所示:
(S,A,Pr(·|·),μ,R,C,γ)
上式中,S表示系统状态空间,在时隙t开始时的状态定义为st,A表示动作空间,动作at表示在时隙t内执行的时间分配,Pr(·|·)表示执行动作后的状态转移概率,μ表示状态的初始分布,R表示奖励函数,Rt表示在状态st下执行动作at后智能体所获的即时奖励,
C表示成本函数,Ct表示在状态st下执行动作at后智能体所耗费的即时成本,γ表示折扣因子。
3.根据权利要求2所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述优化目标为通信感知系统中的长期平均感知互信息,所述约束条件为通信感知系统中的长期平均年龄惩罚,其中:
所述优化目标的表达式为,
上式中,s1表示初始状态,δmax表示平均年龄惩罚的预设约束值,表示期望算子,πθ表示基于参数化深度神经网络的策略,相应参数为θ,T表示在环境中执行任务的总步数;
所述约束条件的表达式为,
上式中,Irad(U(t))表示通信接收机接收到的最新数据包的大小,表示预设的斜率上限,δ(t)表示通信接收机的信息年龄。
4.根据权利要求3所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述构建策略网络、值网络和拉格朗日乘子这一步骤,其具体包括:
所述策略网络包括均值网络和标准差网络,所述策略网络用于将系统状态输入策略网络,基于得到的动作均值和动作标准差构建高斯分布,采样得到的高斯分布获取预输出动作,预输出动作经过裁剪操作限制在区间[0,1]后,得到输出动作;
所述值网络包括输入层、全连接层、激活层和输出层,所述值网络用于更新策略网络的目标函数中有优势函数的存在,并提供值函数的估计,进而用于计算优势函数估计;
所述拉格朗日乘子用于拉格朗日松弛并将成本吸收进奖励中。
5.根据权利要求4所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述采集样本数据这一步骤,其具体包括:
根据约束马尔可夫决策过程中的状态的初始分布,对通信感知系统进行初始化处理,得到初始化后的系统状态;
将初始化后的系统状态输入至策略网络进行动作采样处理,得到采样动作;
将采样动作输入至通信感知系统进行执行,得到初步的经验轨迹数据,所述初步的经验轨迹数据包括即时奖励、即时成本和下一时刻系统状态;
循环上述动作采样处理步骤与通信感知系统执行步骤,直至所述初步的经验轨迹数据满足预设数据长度,输出经验轨迹数据;
循环上述经验轨迹数据的获取步骤,直至所述经验轨迹数据满足预设数据数量,构建样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310209925.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种唇部精华乳及其制备方法
- 下一篇:一种钣金件定位平台