[发明专利]一种基于深度强化学习的异构网络多维资源协同优化方法在审
申请号: | 202211490945.7 | 申请日: | 2022-11-25 |
公开(公告)号: | CN116132304A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 罗杨;骆春波;曹英杰;沙小豹;刘翔;高海瑞 | 申请(专利权)人: | 电子科技大学长三角研究院(湖州) |
主分类号: | H04L41/14 | 分类号: | H04L41/14;H04L41/0823;H04L41/0894;H04L67/568;H04L41/0896 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 李林合 |
地址: | 313001 浙江省湖州市西塞*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 网络 多维 资源 协同 优化 方法 | ||
1.一种基于深度强化学习的异构网络多维资源协同优化方法,其特征在于,包括如下步骤:
S1、构建异构网络多维资源优化模型,利用所构建的优化模型整合多维资源,得到多维资源的整体状态空间,其中,所述多维资源包括通信资源、计算资源、缓存资源和整体能量消耗;
S2、在每一个时间节点提取状态空间的整体状态信息,将所述多维资源区分为奖励项和惩罚项;
S3、将每一个时间节点的整体资源信息输入至策略网络中,利用所述策略网络从行为空间中提取当前策略,利用Q-值网络进行深度学习提取整体资源信息与当前策略的映射关系;
S4、设置奖励函数,利用所设置的奖励函数计算步骤S3所提取的整体资源信息与当前策略的映射关系对应的即时奖励;
S5、对Q-值网络进行系统状态更新,训练Q-值网络的最优网络参数和当前策略,并根据得到的当前策略进行Q-值网络迭代更新,直至所述奖励函数收敛。
2.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法,其特征在于,所述S1中通信资源包括用户之间的设备间通信带宽G[]、用户设备与边缘基站服务器之间的通信带宽H[]以及每一个子信道的干扰强度I[];
所述计算资源包括第k个用户设备完成指定任务需要的计算量ξ[k];
所述缓存资源包括全局缓存资源的大小Ous,单位缓存空间的开销以及总的开销
3.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法,其特征在于,所述S1中多维资源的整体状态空间表示为:
st={Gt,Ht,It,ξt,Lct,Ut,ρt,Oust}
其中,Gt为t时刻用户设备之间的设备间通信带宽、Ht为t时刻用户设备与边缘基站服务器之间的通信带、It为t时刻每一个子信道的干扰强度、ξt为t时刻用户设备完成指定任务需要的计算量、Lct为t时刻传输网络的状态信息、Ut为完成该任务的最大可接受时间、ρt为t时刻的整体能量消耗、Oust为t时刻的全局缓存资源的大小。
4.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法,其特征在于,所述S2中将所述多维资源区分为奖励项和惩罚项的具体方式为:
奖励项设置为:通信资源中信道带宽通过优化用户设备之间的信道带宽G[k]以及用户设备与边缘基站服务器的信道带宽H[m],最小化对用户设备之间的链路以及用户设备与边缘基站服务器之间的链路产生的干扰I[k];
惩罚项设置为:计算资源中传输延迟Lc、能量消耗ρ以及缓存资源产生的缓存开销
5.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法,其特征在于,所述S4中奖励函数表示为:
其中,rt为t时刻的即时奖励,λc为用户之间的设备间通信带宽的权重值,K为用户设备总数,k为用户设备编号,λd为用户设备与边缘基站服务器之间的通信带宽的权重值,M为计算服务器资源总数,m为计算服务器编号,T0为网络的最大容忍延迟,λs为存资源产生的缓存开销的权重值,Ut为指t时刻完成该任务的最大可接受时间U,Qus为指全局缓存资源的大小,ρk为第k个用户设备的能量消耗,rt+n为t+n时刻的即时奖励,β为衰减因子,Rt为衰减累计奖励函数。
6.根据权利要求1所述的一种基于深度强化学习的异构网络多维资源协同优化方法,其特征在于,所述S5中训练Q-值网络的最优网络参数的具体方式为:
Q=rt+γQold(st+1,argmaxa′Qtarget(st+1,a′,θt),θo)
其中,D为训练数据集,rt为即时奖励,st+1为下一时刻的环境状态,Qold为正在训练的Q-值网络,θo为Qold网络的参数,Qtarget为目标Q-值网络,θt为Qtarget网络的参数,γ为折扣因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211490945.7/1.html,转载请声明来源钻瓜专利网。