[发明专利]基于深度强化学习的无线通信网络管控方法及相关设备有效
申请号: | 202210772369.9 | 申请日: | 2022-06-30 |
公开(公告)号: | CN115333961B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 王鲁晗;牛海文;杜科良;路兆铭;温向明 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L41/16 | 分类号: | H04L41/16;H04L41/147;H04L43/0852;H04W24/04;G06N3/08;G06N3/044 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 陈莉 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 无线通信 网络 方法 相关 设备 | ||
1.一种基于深度强化学习的无线通信网络管控方法,其特征在于,所述方法应用于通信网络控制系统,所述系统包括多个控制器、多个状态采集器和多个动作执行器,所述多个控制器之间相互连接,所述控制器分别与所述状态采集器和所述动作执行器连接;所述方法包括:
所述状态采集器获取通信网络的状态数据和所述状态数据对应的获取时间戳,并将所述状态数据发送到所述控制器;
所述控制器获取当前时间戳,并根据预先存储的经验数据集对所述状态数据进行动作增强,得到所述当前时间戳对应的增强状态数据,其中,所述当前时间戳和所述获取时间戳之差为随机时延;
所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值;
所述控制器利用预先训练好的时序关联模型对所述增强状态数据进行关联提取,得到关联表示;
所述控制器采用预先训练好的预测模型根据所述经验数据集进行时间戳预测,得到预测动作时延数据并根据所述时间循环神经网络中的损失函数确定所述预测时延数据对应的损失函数值,其中,所述多个控制器中的经验数据集之间相互同步;
所述控制器控制预先训练好的智能体模型根据所述增强状态数据、所述奖励值、所述关联表示、所述预测动作时延数据和所述损失函数值通过联合优化得到动作执行数据,并将所述动作执行数据发送到所述动作执行器;
所述动作执行器根据所述动作执行数据控制所述通信网络。
2.根据权利要求1所述的方法,其特征在于,所述经验数据包括所有历史时间戳对应的动作执行数据、增强状态数据和根据所述奖励值确定的联合奖励值,其中,所述历史时间戳为所述当前时间戳之前的时间戳;所述状态数据包括所述状态个数、状态奖励值和状态折扣因子;
所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值,包括:
响应于确定所述状态数据中的状态个数为0,所述控制器将所述增强状态数据对应的奖励值设置为0,根据如下公式计算增强状态数据sn(t):sn(t)=sn(t-1)∪an(t-1),其中,sn(t)为第n个增强状态数据,t为所述当前时间戳,sn(t-1)为所述经验数据集中上一个时间戳的第n个增强状态数据,an(t-1)为所述经验数据集中上一个时间戳的第n个动作数据,n为正整数;
响应于确定所述状态数据中的状态个数等于1,所述控制器将所述增强状态数据对应的奖励值设置为所述状态数据中的状态奖励值,根据如下公式计算增强状态数据sn(t):其中,sn(t)为t时刻的第n个增强状态数据,为时刻包含1个状态的状态数据,为所述随机时延,为所述经验数据集中时刻的第n个动作数据,λ为动作时延,an(t-1)为所述经验数据集t-1时刻的第n个动作数据;
响应于确定所述状态数据中的状态个数大于1,所述控制器根据所述状态数据中的状态折扣因子和所述状态奖励确定所述增强状态数据对应的奖励值,多个状态对应的时间戳集为τ={τ1,τ2,...τm},所述时间戳集中,离所述当前时间戳最近的状态时间戳为τi,即根据如下公式计算增强状态数据sn(t):sn(t)=(on(τ),an(τ-λ+1),...,an(t-1)),其中,on(τ)为包含多个状态的状态数据,an(τ-λ+1)为所述经验数据集中所述动作时延对应的第n个动作数据;根据如下公式计算所述奖励值:其中,rn(t-1)为t-1时刻的奖励值,为时间戳τi-τj对应的折扣因子,rn(τi)为时间戳τi对应的第n个奖励值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210772369.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:口蹄疫疫苗
- 下一篇:基于烟花算法的配电网保护装置自适应配置方法