[发明专利]基于概率转移深度强化学习的无线物联网资源分配方法有效
申请号: | 202010363929.6 | 申请日: | 2020-04-30 |
公开(公告)号: | CN111586146B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 彭迪栎 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | H04L67/56 | 分类号: | H04L67/56;H04L67/10;H04L67/51;G06K9/62;G16Y10/75;G16Y20/30 |
代理公司: | 成都玖和知识产权代理事务所(普通合伙) 51238 | 代理人: | 胡琳梅 |
地址: | 550000 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 概率 转移 深度 强化 学习 无线 联网 资源 分配 方法 | ||
1.基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述方法包括以下步骤:
步骤S1:在每个边缘服务器el中设置一个做服务迁移决策的代理服务模块agent l,该agent l只对当前时刻与el相连接的用户进行服务迁移决策,即决策对象为集合设agent l所能观测到的距离信息矩阵是全局观测矩阵Dτ的子集,定义为集合中的用户与所有服务器的距离,则同理可以定义边缘服务器el所观测到的任务矩阵为为全局任务矩阵Tτ的子集,定义为集合中的用户的任务信息,则每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器,则agent l所观测到的服务器剩余资源信息为全局的定义agent l所能观测到的信息为
步骤S2:agent l根据历史观测信息和历史决策信息作出当前时刻的决策是全局action Aτ的子集,得到部分可观测马尔科夫决策模型;
步骤S3:通过基于概率转移深度强化学习环境建模的智能服务迁移算法,得到交叉熵规划模块和环境建模模块,环境建模模块用于设计出递归状态空间模型,用于在潜在空间中预测未来的状态信息以及奖励值,所述递归状态空间模型包括环境转换模型、奖励模型和观测模型,通过环境转换模型得到循环状态空间模型;
步骤S4:在系统的部分可观测马尔科夫决策模型已知的情况下,首先用多维正态分布初始化一个策略分布Aτ:τ+K~π(μτ:τ+K,στ:τ+K),并将当前时刻的观测状态oτ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态sτ;
步骤S5:通过交叉熵规划模块,采用交叉熵方法根据τ时刻的隐藏状态sτ和策略分布π(μτ,στ)采样τ时刻的action Aτ;
步骤S6:使用转换模型p(sτ|hτ)和hτ=f(hτ-1,sτ-1,Aτ-1)得到下一个时刻的隐藏状态sτ+1,同时使用reward模型p(rτ|hτ,sτ)得到当前action的环境奖励值rτ;
步骤S7:重复步骤S5和步骤S6,直到规划到第τ+K步,得到一条状态转移路径si=sτ:τ+K+1、决策路径Ai=Aτ:τ+K以及相应的环境奖励值ri=rτ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值,作为该决策路径的整体奖励值Ri;
步骤S8:回到步骤S4的隐藏状态sτ,再重复步骤S5和步骤S6 I次得到I条决策路径和相应的累积奖励值集合
步骤S9:选出其中奖励值最大的I条路径;
步骤S10:使用公式(2)和(3)更新策略分布;
步骤S11:重复步骤S4到步骤S10 J次得到最终的策略分布,取策略分布的均值序列作为最优的决策路径A*=Aτ:τ+K-1=μτ:τ+K-1,最后仅把Aτ反馈给环境执行。
2.根据权利要求1所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述步骤S2中,部分可观测马尔科夫决策模型的决策过程如下:
转换模型:
观察状态:
奖励模型:
策略:
译码器:
执行策略πl的目标是去最大化累积奖励值
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010363929.6/1.html,转载请声明来源钻瓜专利网。