[发明专利]一种基于深度强化学习的内容更新方法有效
申请号: | 202110454708.4 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113064907B | 公开(公告)日: | 2023-02-21 |
发明(设计)人: | 姜静;王凯;孙军涛;杜剑波 | 申请(专利权)人: | 陕西悟空云信息技术有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/2455;G06N3/04;G06N3/092 |
代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 汪海艳 |
地址: | 710000 陕西省西安市经济技术开发区*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 内容 更新 方法 | ||
本发明公开了一种基于深度强化学习的内容更新方法,可以解决缓存内容的流行度未知且是动态变化的问题,使缓存策略能够适应动态变化的移动网络环境,从而最大化缓存命中率。具体过程主要包括首先建立缓存替换模型,其次利用神经网络获得当前缓存状态下的缓存替换策略,同时获得当前缓存状态到下一缓存状态奖赏函数,之后,利用神经网络找出当前缓存状态下最优缓存替换策略,最后利用最优缓存替换策略进行内容更新。
技术领域
本发明涉及无线缓存技术领域,具体涉及一种基于深度强化学习的内容更新方法及应用。
背景技术
在无线缓存技术领域,内容更新是指将存储于Internet内容库中的数据调用到基站缓存中,然后通过缓存替换策略对基站缓存中的数据进行实时更新。通过缓存替换策略可使基站缓存清除陈旧、冷门、价值低或占用空间大的内容。现有的缓存替换策略主要包括先进先出策略(FIFO)、最近最少使用策略(LRU)和最少频率使用策略(LFU),其中这些均无法跟踪内容流行度的快速变化,由此降低了缓存命中率,从而降低了用户体验感。
发明内容
为了解决传统缓存替换策略存在的无法跟踪内容流行度导致缓存命中率较低的问题。本发明提供了一种基于深度强化学习的内容更新方法,所述内容更新方法是采用学习算法,能够适应流行度动态变化的场景,及时跟踪文件流行度的快速变化,根据内容流行度的变换进行缓存替换,最后进行内容更新实现更高的缓存命中。
本发明的技术解决方案是提供了一种基与深度强化学习的内容更新方法,其特殊之处在于,包括以下步骤:
步骤一、建立缓存替换模型:
对内容更新建立缓存替换模型,并定义缓存替换模型的状态空间、动作空间和奖赏函数;
步骤二、利用神经网络获得当前缓存状态下的缓存替换策略,同时获得当前缓存状态到下一缓存状态奖赏函数;
步骤2.1、将当前缓存状态作为神经网络的输入数据;
步骤2.2、神经网络输出缓存替换策略;智能体根据缓存替换策略执行不同缓存替换动作,选取概率最大的一个缓存替换动作,同时转移到下一缓存状态此得出所述当前缓存状态到下一缓存状态奖赏函数;
步骤2.3、判断当前缓存状态是否为终止状态或者是否达到最大迭代次数,若是,则执行步骤三,否则,将下一缓存状态作为神经网络的输入数据,返回步骤2.2;
步骤三、利用神经网络找出当前缓存状态下最优缓存替换策略;
在神经网络中利用奖赏函数计算状态值函数,使用神经网络拟合状态值函数,同时获得状态值函数的TD误差,利用状态值函数的TD误差更新神经网络参数,得到当前状态下最优缓存替换策略;
步骤四、利用最优缓存替换策略进行内容更新。
进一步的,步骤二中所述神经网络为Actor网络;Actor网络根据当前缓存状态输出缓存替换策略;
步骤三中所述神经网络为Critic网络,使用Critic网络拟合状态值函数,用来评价Actor网络输出的缓存替换策略,并指导Actor网络更新网络参数以改善缓存替换策略。
进一步的,步骤1中缓存替换模型的状态空间:S={s1,s2,...,sn},每个时刻n∈[1,n]的缓存状态定义为sn,sn={cn,rn,cn∈c,rn∈r},其中c为缓存放置内容,r为请求内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西悟空云信息技术有限公司,未经陕西悟空云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110454708.4/2.html,转载请声明来源钻瓜专利网。