[发明专利]一种基于约束强化学习的通信感知联合优化方法及系统在审

专利信息
申请号: 202310209925.6 申请日: 2023-03-07
公开(公告)号: CN116367337A 公开(公告)日: 2023-06-30
发明(设计)人: 王玺钧;马力斐;陈翔 申请(专利权)人: 中山大学
主分类号: H04W72/542 分类号: H04W72/542;G06F17/11;G06N7/01
代理公司: 深圳市创富知识产权代理有限公司 44367 代理人: 梁嘉朗
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 约束 强化 学习 通信 感知 联合 优化 方法 系统
【权利要求书】:

1.一种基于约束强化学习的通信感知联合优化方法,其特征在于,包括以下步骤:

将通信感知系统建模为一个约束马尔可夫决策过程,并确定优化目标和约束条件;

构建策略网络、值网络和拉格朗日乘子并采集样本数据;

基于优化目标和约束条件,通过样本数据对策略网络、值网络和拉格朗日乘子进行更新训练,得到训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子;

通信感知系统基于训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子进行信息交互。

2.根据权利要求1所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述约束马尔可夫决策过程其具体包括系统状态空间、系统动作空间和奖励函数,其表达式具体如下所示:

(S,A,Pr(·|·),μ,R,C,γ)

上式中,S表示系统状态空间,在时隙t开始时的状态定义为st,A表示动作空间,动作at表示在时隙t内执行的时间分配,Pr(·|·)表示执行动作后的状态转移概率,μ表示状态的初始分布,R表示奖励函数,Rt表示在状态st下执行动作at后智能体所获的即时奖励,

C表示成本函数,Ct表示在状态st下执行动作at后智能体所耗费的即时成本,γ表示折扣因子。

3.根据权利要求2所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述优化目标为通信感知系统中的长期平均感知互信息,所述约束条件为通信感知系统中的长期平均年龄惩罚,其中:

所述优化目标的表达式为,

上式中,s1表示初始状态,δmax表示平均年龄惩罚的预设约束值,表示期望算子,πθ表示基于参数化深度神经网络的策略,相应参数为θ,T表示在环境中执行任务的总步数;

所述约束条件的表达式为,

上式中,Irad(U(t))表示通信接收机接收到的最新数据包的大小,表示预设的斜率上限,δ(t)表示通信接收机的信息年龄。

4.根据权利要求3所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述构建策略网络、值网络和拉格朗日乘子这一步骤,其具体包括:

所述策略网络包括均值网络和标准差网络,所述策略网络用于将系统状态输入策略网络,基于得到的动作均值和动作标准差构建高斯分布,采样得到的高斯分布获取预输出动作,预输出动作经过裁剪操作限制在区间[0,1]后,得到输出动作;

所述值网络包括输入层、全连接层、激活层和输出层,所述值网络用于更新策略网络的目标函数中有优势函数的存在,并提供值函数的估计,进而用于计算优势函数估计;

所述拉格朗日乘子用于拉格朗日松弛并将成本吸收进奖励中。

5.根据权利要求4所述一种基于约束强化学习的通信感知联合优化方法,其特征在于,所述采集样本数据这一步骤,其具体包括:

根据约束马尔可夫决策过程中的状态的初始分布,对通信感知系统进行初始化处理,得到初始化后的系统状态;

将初始化后的系统状态输入至策略网络进行动作采样处理,得到采样动作;

将采样动作输入至通信感知系统进行执行,得到初步的经验轨迹数据,所述初步的经验轨迹数据包括即时奖励、即时成本和下一时刻系统状态;

循环上述动作采样处理步骤与通信感知系统执行步骤,直至所述初步的经验轨迹数据满足预设数据长度,输出经验轨迹数据;

循环上述经验轨迹数据的获取步骤,直至所述经验轨迹数据满足预设数据数量,构建样本数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310209925.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top