[发明专利]移动边缘计算网络中基于分布式强化学习的隐私保护动态边缘缓存设计方法有效
申请号: | 202110616233.4 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113364854B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 黄永明;郑冲;刘升恒;程浩;张璐佳 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L67/568 | 分类号: | H04L67/568;H04L67/5682;H04L67/10;H04W28/14;H04L41/147;H04L41/142;H04L9/40 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 移动 边缘 计算 网络 基于 分布式 强化 学习 隐私 保护 动态 缓存 设计 方法 | ||
1.移动边缘计算网络中基于分布式强化学习的隐私保护动态边缘缓存设计方法,所述方法包括如下步骤:
(1)构建每个用户的文件请求概率模型,并考虑用户主观兴趣的动态性和空时相关性,构建出用户本地端的局部流行度模型以及在服务器端形成的全局流行度模型,设计与动态流行度相匹配的动态边缘缓存更新机制,并写出各个设备的实时缓存命中率表达式,
(2)针对设计的动态边缘缓存机制,构建以最大化各个设备缓存命中率为优化目标,以设备缓存容量受限为约束条件的分布式优化问题模型,
(3)将构建的分布式优化问题转化成分布式的无模型马尔科夫决策过程问题,并同时引入一种联邦学习方法用于流行度预测,以解决隐私保护约束所带来的挑战,针对转化后的分布式马尔科夫决策问题,设计一种隐私保护的分布式深度确定性策略梯度算法进行迭代学习,得出隐私保护约束下动态边缘缓存方案,
步骤(1)中,考虑一个典型的多用户单边缘接入节点的移动边缘计算网络场景,边缘接入节点配备有一定计算能力和一定缓存能力的移动边缘计算(Mobile edge computing,MEC)服务器,每个用户的本地设备进行一定的计算和存储,假设有I个用户,表示为I={1,2,…,I},所提供的服务内容库中包含N个文件,表示为F={F1,F2,…,FN},设MEC服务器能够缓存M0个文件,且服务器在时刻t所缓存的文件集合记为C0(t),同时,假设用户i的本地设备能缓存Mi个文件,且用户i的本地设备在时刻t对应的缓存文件为Ci(t),设Mi<<M0N;
考虑用户i在时刻t的内容请求Fi(t)到达率为λi(t),若该时刻用户i不产生内容请求,则表示为当Fi(t)∈F时,假设每个文件被用户i请求的概率服从参数为αi(t)的Zipf分布,表示为其中Pi(αi(t),t)为用户i在时刻t的内容流行度,也称之为在用户i端的局部流行度;为Fi(t)∈F情况下用户i在时刻t请求文件Fn的概率,基于此,用户i在时刻t的内容请求概率模型可以表示为
用动态变化的αi(t)来反映用户i主观兴趣的变化性,同时考虑到用户兴趣在时间上的前后相关性以及复杂性,将αi(t)的动态性建模成一个包含|Gi|个状态的无模型马尔科夫链,其中集合为用户i所有可能的分布参数集,因此,αi(t)的动态性建模成其中,为αi(t)转移到的转移概率,且在无模型马尔科夫链中该状态转移概率是未知的,当用户i请求的文件Fi(t)在当前时刻未被缓存在其本地设备上时,将这种情况表示为此时,用户将向边缘接入节点发送内容请求,以获取当前所需的内容文件,因此,MEC服务器端在时刻t也会形成一个动态变化的内容流行度,称之为全局流行度,记为其中表示整个服务范围内,文件Fn在时刻t被请求的概率;
步骤(3)中,构造出来的分布式优化问题都是非凸优化问题,且目标函数都是时间上的累计期望,所求解的都是包含时间维度的策略,首先,原分布式优化问题转化为分布式的状态转移概率未知的无模型马尔科夫决策过程问题,状态空间,动作空间和奖励函数设置如下
状态空间:考虑到时间变量,MEC端的状态空间和用户i本地端的状态空间可以分别表示为S0={s0(t)∣t=0,1,2,…}和Si={si(t)∣t=0,1,2,…},其中s0(t)={C0(t),RG(t)},si(t)={Ci(t),Ri(t)},Ri(t)=[Fi(t-H),…,Fi(t)]为用户i的历史请求信息提取器,H为提取器的观测窗口长度;
动作空间:根据原优化问题中的定义,分别为A0和
奖励函数:MEC服务器端和用户i本地端的单步奖励分别设置为H0(t)和在此基础上,MEC服务器端和用户i本地端从时刻t开始的累计奖励函数可以定义为和
然而,在上述MEC服务器端定义的状态空间中,包含了任意时刻的用户请求信息RG(t),MEC服务器时无权保存任何时刻的用户请求信息RG(t),利用全局流行度和局部流行度来分别替换RG(t)和Ri(t),并采用一种联邦学习算法来进行流行度预测,同时保护用户隐私,具体地,替换后的系统状态表示为
其中,为Pi(αi(t+1),t+1)的预测值,为PG(t+1)的预测值,和分别表示局部预测模型和全局预测模型,采用基于长短期记忆的自编码器神经网络来搭建局部和全局预测模型,Θi和ΘG分别为局部预测模型和全局预测模型的网络参数,采用基于联邦学习的分布式训练架构来实现保护用户隐私的同时对Θi和ΘG进行训练,MEC服务器端采用平均加权的方式来获得ΘG,表示为
其中ωi为加权因子,
经过以上问题的转化,最后采用一种基于隐私保护的分布式深度确定性策略梯度(Privacy-preserving distributed deep deterministic policy gradient,P2D3PG)算法来进行分布式迭代学习求解,学习到的策略由actor网络输出,表示为为策略π的参数化表示,ΘA为actor网络的网络参数。
2.根据权利要求1 所述的移动边缘计算网络中基于分布式强化学习的隐私保护动态边缘缓存设计方法,其特征在于,步骤(2)中,在MEC服务器端,服务器在时刻t接收到来自用户的请求信息后将会立即检查自己当前的缓存状态C0(t),若存在需求文件未被缓存,则服务器会接入云端去获取缺失文件因此,为MEC服务器在每个时刻所对应的输入文件,MEC服务器端无权保留任何时刻的用户请求信息RG(t),即在每下个时刻t+1到来之前,服务器都必须将RG(t)信息全部删除以保护用户的隐私信息,定义MEC服务器的缓存更新动作其中,用于决策新输入文件集中哪些需要被保存下来,当时表示文件需要被存储下来,否则该文件被直接丢弃,用于决策原始缓存C0(t)中,哪些文件需要被擦除,当时表示原始缓存中文件需要被擦除,否则表示文件可以被继续保留,为了最大化缓存资源利用率,有|C0(t)|=M0,同时受限于服务器缓存容量的限制,有
以此保证服务器缓存实体中的内容充盈但又不溢出,在用户i本地设备端,每个时刻t所对应的输入文件表示为定义ai(t)为用户i本地设备在时刻t的缓存更新动作,表示为其中,取值1或0用于指示文件的擦除或继续保存在缓存中,取值1或0用于指示文件的保留或直接丢弃,同样,受限于用户本地设备的缓存容量,有
根据每个时刻,各个缓存设备的缓存状态以及相应的文件请求,得到系统中所有缓存实体的实时缓存命中率,具体地,MEC服务器的实时缓存命中率可以表示为
任意用户i的实时缓存命中率为
考虑到Hi(t)只存在0或100%两种取值情况,进一步定义Hi(t)的滑动平均值
其中,Th为滑动窗口的长度;
分布式的优化模型可以表示为MEC服务器端和用户端,对于MEC服务器,优化问题为P1:
s.t.
|C0(t)|≤M0,
其中为MEC服务器端的动态缓存更新策略,指导服务器在任意时刻有效地进行缓存更新,χ∈[0,1]为折扣因子,Γ为时隙数,且M0={1,2,…,M0},对于用户i的本地端,优化问题为
P2:
s.t.
|Ci(t)|≤Mi,
其中为用户i本地端的动态缓存更新策略,指导其本地设备在任意时刻进行有效地缓存更新操作,且Mi={1,2,…,Mi}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110616233.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种点云重采样方法、系统、存储介质及设备
- 下一篇:信号转换器测试工装