[发明专利]一种基于约束强化学习的通信感知联合优化方法及系统在审

申请号：	202310209925.6	申请日：	2023-03-07
公开（公告）号：	CN116367337A	公开（公告）日：	2023-06-30
发明（设计）人：	王玺钧;马力斐;陈翔	申请（专利权）人：	中山大学
主分类号：	H04W72/542	分类号：	H04W72/542;G06F17/11;G06N7/01
代理公司：	深圳市创富知识产权代理有限公司 44367	代理人：	梁嘉朗
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于约束强化学习通信感知联合优化方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于约束强化学习的通信感知联合优化方法及系统，该方法包括：将通信感知系统建模为一个约束马尔可夫决策过程，并确定优化目标和约束条件；构建策略网络、值网络和拉格朗日乘子并采集样本数据；基于优化目标和约束条件，通过样本数据对策略网络、值网络和拉格朗日乘子进行更新训练；通信感知系统基于训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子进行信息交互。通过使用本发明，能够在环境模型事先未知的情况下求解通信感知双功能场景下的时间分配问题。本发明作为一种基于约束强化学习的通信感知联合优化方法及系统，可广泛应用于感知通信联合技术领域。

技术领域

本发明涉及感知通信联合技术领域，尤其涉及一种基于约束强化学习的通信感知联合优化方法及系统。

背景技术

近年来，由于其显著优势，联合感知与通信引起了越来越多的关注；首先，联合感知与通信允许雷达感知系统和通信系统彼此共享频带，从而减少由于两者频谱逐渐重叠而导致的频谱稀缺；其次，联合感知与通信使单个硬件平台能够同时执行感知和通信功能，从而减小系统尺寸和硬件成本，同时满足大量新兴应用对高质量无线连接和高精度感知能力的需求；然而，雷达感知系统与通信系统的联合也会导致系统对有限资源的竞争；因此，需要进一步研究通信与感知的联合优化问题；事实上，目前已有许多工作开展了相关的研究；然而，现有工作在优化问题中并没有联合考虑及时性与有效性的指标，并且现在工作在求解优化问题时并没有考虑到系统所处环境往往具有高度动态性和不确定性从而难以建模，这使得它们不能很好地满足各种应用场景的需求。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于约束强化学习的通信感知联合优化方法及系统，能够在环境模型事先未知的情况下求解通信感知双功能场景下的时间分配问题。

本发明所采用的第一技术方案是：一种基于约束强化学习的通信感知联合优化方法，包括以下步骤：

将通信感知系统建模为一个约束马尔可夫决策过程，并确定优化目标和约束条件；

构建策略网络、值网络和拉格朗日乘子并采集样本数据；

基于优化目标和约束条件，通过样本数据对策略网络、值网络和拉格朗日乘子进行更新训练，得到训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子；

通信感知系统基于训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子进行信息交互。

进一步，所述约束马尔可夫决策过程其具体包括系统状态空间、系统动作空间和奖励函数，其表达式具体如下所示：

(S,A,Pr(·|·),μ,R,C,γ)

上式中，S表示系统状态空间，在时隙t开始时的状态定义为s_t，A表示动作空间，动作a_t表示在时隙t内执行的时间分配，Pr(·|·)表示执行动作后的状态转移概率，μ表示状态的初始分布，R表示奖励函数，R_t表示在状态s_t下执行动作a_t后智能体所获的即时奖励，C表示成本函数，C_t表示在状态s_t下执行动作a_t后智能体所耗费的即时成本，γ表示折扣因子。

进一步，所述优化目标为通信感知系统中的长期平均感知互信息，所述约束条件为通信感知系统中的长期平均年龄惩罚，其中：

上式中，s₁表示初始状态，δ^max表示平均年龄惩罚的预设约束值，表示期望算子，π_θ表示基于参数化深度神经网络的策略，相应参数为θ，T表示在环境中执行任务的总步数；

所述约束条件的表达式为，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310209925.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W72-00 本地资源管理，例如，无线资源的选择或分配或无线业务量调度
H04W72-02 .通过用户或终端选择无线资源
H04W72-04 .无线资源分配
H04W72-12 .无线业务量调度
H04W72-14 ..使用授权的信道
H04W72-06 ..基于无线资源的等级标准

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于约束强化学习的通信感知联合优化方法及系统在审

专利文献下载