[发明专利]一种基于深度强化学习的异构网络多维资源协同优化方法在审

申请号：	202211490945.7	申请日：	2022-11-25
公开（公告）号：	CN116132304A	公开（公告）日：	2023-05-16
发明（设计）人：	罗杨;骆春波;曹英杰;沙小豹;刘翔;高海瑞	申请（专利权）人：	电子科技大学长三角研究院（湖州）
主分类号：	H04L41/14	分类号：	H04L41/14;H04L41/0823;H04L41/0894;H04L67/568;H04L41/0896
代理公司：	北京正华智诚专利代理事务所(普通合伙) 11870	代理人：	李林合
地址：	313001 浙江省湖州市西塞***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习网络多维资源协同优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的异构网络多维资源协同优化方法，其特征在于，包括如下步骤：

S1、构建异构网络多维资源优化模型，利用所构建的优化模型整合多维资源，得到多维资源的整体状态空间，其中，所述多维资源包括通信资源、计算资源、缓存资源和整体能量消耗；

S2、在每一个时间节点提取状态空间的整体状态信息，将所述多维资源区分为奖励项和惩罚项；

S3、将每一个时间节点的整体资源信息输入至策略网络中，利用所述策略网络从行为空间中提取当前策略，利用Q-值网络进行深度学习提取整体资源信息与当前策略的映射关系；

S4、设置奖励函数，利用所设置的奖励函数计算步骤S3所提取的整体资源信息与当前策略的映射关系对应的即时奖励；

S5、对Q-值网络进行系统状态更新，训练Q-值网络的最优网络参数和当前策略，并根据得到的当前策略进行Q-值网络迭代更新，直至所述奖励函数收敛。

2.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法，其特征在于，所述S1中通信资源包括用户之间的设备间通信带宽G[]、用户设备与边缘基站服务器之间的通信带宽H[]以及每一个子信道的干扰强度I[]；

所述计算资源包括第k个用户设备完成指定任务需要的计算量ξ[k]；

所述缓存资源包括全局缓存资源的大小O_us，单位缓存空间的开销以及总的开销

3.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法，其特征在于，所述S1中多维资源的整体状态空间表示为：

s_t＝{G_t,H_t,I_t,ξ_t,L_ct,U_t,ρ_t,O_ust}

其中，G_t为t时刻用户设备之间的设备间通信带宽、H_t为t时刻用户设备与边缘基站服务器之间的通信带、I_t为t时刻每一个子信道的干扰强度、ξ_t为t时刻用户设备完成指定任务需要的计算量、L_ct为t时刻传输网络的状态信息、U_t为完成该任务的最大可接受时间、ρ_t为t时刻的整体能量消耗、O_ust为t时刻的全局缓存资源的大小。

4.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法，其特征在于，所述S2中将所述多维资源区分为奖励项和惩罚项的具体方式为：

奖励项设置为：通信资源中信道带宽通过优化用户设备之间的信道带宽G[k]以及用户设备与边缘基站服务器的信道带宽H[m]，最小化对用户设备之间的链路以及用户设备与边缘基站服务器之间的链路产生的干扰I[k]；

惩罚项设置为：计算资源中传输延迟L_c、能量消耗ρ以及缓存资源产生的缓存开销

5.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法，其特征在于，所述S4中奖励函数表示为：

其中，r_t为t时刻的即时奖励，λ_c为用户之间的设备间通信带宽的权重值，K为用户设备总数，k为用户设备编号，λ_d为用户设备与边缘基站服务器之间的通信带宽的权重值，M为计算服务器资源总数，m为计算服务器编号，T₀为网络的最大容忍延迟，λ_s为存资源产生的缓存开销的权重值，U_t为指t时刻完成该任务的最大可接受时间U，Q_us为指全局缓存资源的大小，ρ_k为第k个用户设备的能量消耗，r_t+n为t+n时刻的即时奖励，β为衰减因子，R_t为衰减累计奖励函数。

6.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法，其特征在于，所述S5中训练Q-值网络的最优网络参数的具体方式为：

Q＝r_t+γQ_old(s_t+1,argmax_a′Q_target(s_t+1,a′,θ_t),θ_o)

其中，D为训练数据集，r_t为即时奖励，s_t+1为下一时刻的环境状态，Q_old为正在训练的Q-值网络，θ_o为Q_old网络的参数，Q_target为目标Q-值网络，θ_t为Q_target网络的参数，γ为折扣因子。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院（湖州），未经电子科技大学长三角研究院（湖州）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211490945.7/1.html，转载请声明来源钻瓜专利网。

上一篇：整车OTA升级方法、装置、电子设备及车辆
下一篇：一种UV湿气双固化胶粘剂及其制备方法和应用

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的异构网络多维资源协同优化方法在审

专利文献下载