[发明专利]基于深度循环强化学习的网络边缘缓存方法、装置及设备在审
申请号: | 202111284077.2 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114025017A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 徐海涛;孙悦隽;邬惠峰;戴翚 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | H04L67/568 | 分类号: | H04L67/568;H04L67/5682;G06N3/04;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨俊辉;臧建明 |
地址: | 310018 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 循环 强化 学习 网络 边缘 缓存 方法 装置 设备 | ||
1.一种基于深度循环强化学习的网络边缘缓存方法,其特征在于,应用于边缘服务器,所述方法包括:
采集获取当前时隙之前的连续多个时隙的系统状态信息,每个时隙对应的系统状态信息包括所述时隙的内容流行度和所述边缘服务器缓存的内容;
将所述多个时隙的系统状态信息输入深度循环神经网络中进行缓存动作选择处理,得到目标缓存动作;其中,所述深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型;
根据所述目标缓存动作执行缓存替换操作。
2.根据权利要求1所述的方法,其特征在于,所述采集获取当前时隙之前的连续多个时隙的系统状态信息之前,所述方法还包括:
从重放缓冲池中获取预设数量的训练数据,所述重放缓冲池中包括预先获取的多组训练数据,每组训练数据中包括一时隙之前采集的多个连续时隙的系统状态信息,边缘服务器执行的缓存动作,所述缓存动作对应的奖励值以及所述时隙的下一个时隙系统状态;
根据所述预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值,得到所述深度循环神经网络。
3.根据权利要求2所述的方法,其特征在于,所述从重放缓冲池中获取预设数量的训练数据之前,所述方法还包括:
针对多个采集时隙中的每个时隙,采集所述时隙之前多个连续时隙的系统状态信息;
随机选择一个随机数,若所述随机数大于预设的初始的选择因子,则根据所述多个连续时隙的系统状态信息和初始神经网络选择一个缓存动作;
若所述随机数小于或等于所述初始选择因子,则随机选择一个缓存动作;
执行所述缓存动作,获取对应的奖励值和所述时隙的下一个时隙的系统状态;
将所述时隙之前多个连续时隙的系统状态信息,执行的所述缓存动作,所述奖励值,所述时隙的下一个时隙的系统状态作为一组训练数据放入所述重放缓冲池。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值,得到所述深度循环神经网络,包括:
根据所述预设数量的训练数据,Q网络和固定Q网络计算得到损失值;
若损失值大于或等于所述预设阈值,则根据所述奖励值更新所述Q网络的权重,并在所述Q网络的权重更新次数达到预设次数后更新所述固定Q网络的权重;
根据更新后的Q网络的权重,对所述初始神经网络模型进行训练,得到训练后的神经网络;
重新从所述重放缓冲池中获取预设数量的训练数据,根据新获取的预设数量的训练数据,更新后的Q网络,更新后的固定Q网络计算新的损失值,若新的损失值小于预设阈值,则得到深度循环神经网络,若新的损失值不小于预设阈值,则根据新的奖励值更新Q网络的权重,并在所述Q网络的权重更新次数达到预设次数后更新固定Q网络的权重,再根据更新后的Q网络的权重再次进行神经网络训练,重复本步骤直至所述损失值小于所述预设阈值,得到深度循环神经网络。
5.根据权利要求4所述的方法,其特征在于,所述根据更新后的Q网络的权重,对所述初始神经网络模型进行训练,得到训练后的神经网络之后,所述方法还包括:
判断所述选择因子是否大于预设的选择因子最小值;
若所述选择因子大于所述选择因子最小值,则对所述选择因子乘以预设选择因子系数,得到新的选择因子,所述预设系数大于0且小于1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111284077.2/1.html,转载请声明来源钻瓜专利网。