[发明专利]一种基于深度强化学习的异构网络多维资源协同优化方法在审

申请号：	202211490945.7	申请日：	2022-11-25
公开（公告）号：	CN116132304A	公开（公告）日：	2023-05-16
发明（设计）人：	罗杨;骆春波;曹英杰;沙小豹;刘翔;高海瑞	申请（专利权）人：	电子科技大学长三角研究院（湖州）
主分类号：	H04L41/14	分类号：	H04L41/14;H04L41/0823;H04L41/0894;H04L67/568;H04L41/0896
代理公司：	北京正华智诚专利代理事务所(普通合伙) 11870	代理人：	李林合
地址：	313001 浙江省湖州市西塞***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习网络多维资源协同优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的异构网络多维资源协同优化方法，构建异构网络多维资源优化模型，采用联邦学习架构训练深度强化学习算法，在每一个边缘基站服务器上训练深度神经网络，从本地训练数据中实时提取特征，避免大量本地数据上传至云端服务器，有利于分布式资源调度策略的构建。将这些特征输入到强化学习决策模型，通过奖励函数逼近最优调度决策，解决实时求解多维资源最优调度决策面临的巨量状态空间的难题，实现异构网络多级多维资源的协同调度。

技术领域

本发明涉及通信领域，具体涉及一种基于深度强化学习的异构网络多维资源协同优化方法。

背景技术

在未来万物互联场景下，异构智能通信网络中的用户设备，包括车辆、无人机、智能手机、物联网传感器等，需要感知和缓存大量数据和模型参数，并且完成快速模型训练和推理，这给计算、通信和缓存资源有限的用户设备带来极大挑战。另一方面，通过在边缘基站处配置高性能服务器，并辅以高速连接的云端服务器，结合异构网络通信资源，为解决大量用户设备亟需的计算和缓存等资源提供了基础条件，但是也导致了多维网络资源的耦合问题。例如，用户设备将计算任务卸载到边缘基站服务器或云端服务器，虽然能有效缓解其计算压力，但同时会造成额外的通信开销和传输时延。如何协同用户设备、边缘基站服务器和云端服务器的多维网络资源成为亟待解决的关键问题。

现有的研究充分考虑了多种异构网络资源调度的特点和挑战，验证了基于强化学习方法的优势，可用于解决未来智能通信场景的复杂资源协同调度的难题。联邦学习架构下异构网络多级节点的通信、计算和存储等多维度资源的相互耦合及网络状态的高动态性，对现有资源调度算法带来了挑战，而且常见的强化学习算法在多维度连续优化方面性能不理想。需要明晰多维资源的相互作用机理，提出有针对性的深度强化学习资源调度算法，解决未来智能通信场景下多维资源的协同难题。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于深度强化学习的异构网络多维资源协同优化方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于深度强化学习的异构网络多维资源协同优化方法，包括如下步骤：

S1、构建异构网络多维资源优化模型，利用所构建的优化模型整合多维资源，得到多维资源的整体状态空间，其中，所述多维资源包括通信资源、计算资源、缓存资源和整体能量消耗；

S2、在每一个时间节点提取状态空间的整体状态信息，将所述多维资源区分为奖励项和惩罚项；

S3、将每一个时间节点的整体资源信息输入至策略网络中，利用所述策略网络从行为空间中提取当前策略，利用Q-值网络进行深度学习提取整体资源信息与当前策略的映射关系；

S4、设置奖励函数，利用所设置的奖励函数计算步骤S3所提取的整体资源信息与当前策略的映射关系对应的即时奖励；

S5、对Q-值网络进行系统状态更新，训练Q-值网络的最优网络参数和当前策略，并根据得到的当前策略进行Q-值网络迭代更新，直至所述奖励函数收敛。

进一步的，所述S1中通信资源包括用户之间的设备间通信带宽G[]、用户设备与边缘基站服务器之间的通信带宽H[]以及每一个子信道的干扰强度I[]；

所述计算资源包括第j个用户设备完成指定任务需要的计算量ξ[k]；

所述缓存资源包括全局缓存资源的大小O_us，单位缓存空间的开销以及总的开销