[发明专利]移动边缘计算网络中基于分布式强化学习的隐私保护动态边缘缓存设计方法有效

申请号：	202110616233.4	申请日：	2021-06-02
公开（公告）号：	CN113364854B	公开（公告）日：	2022-07-15
发明（设计）人：	黄永明;郑冲;刘升恒;程浩;张璐佳	申请（专利权）人：	东南大学
主分类号：	H04L67/568	分类号：	H04L67/568;H04L67/5682;H04L67/10;H04W28/14;H04L41/147;H04L41/142;H04L9/40
代理公司：	南京众联专利代理有限公司 32206	代理人：	杜静静
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	移动边缘计算网络基于分布式强化学习隐私保护动态缓存设计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.移动边缘计算网络中基于分布式强化学习的隐私保护动态边缘缓存设计方法，所述方法包括如下步骤：

(1)构建每个用户的文件请求概率模型，并考虑用户主观兴趣的动态性和空时相关性，构建出用户本地端的局部流行度模型以及在服务器端形成的全局流行度模型，设计与动态流行度相匹配的动态边缘缓存更新机制，并写出各个设备的实时缓存命中率表达式，

(2)针对设计的动态边缘缓存机制，构建以最大化各个设备缓存命中率为优化目标，以设备缓存容量受限为约束条件的分布式优化问题模型，

(3)将构建的分布式优化问题转化成分布式的无模型马尔科夫决策过程问题，并同时引入一种联邦学习方法用于流行度预测，以解决隐私保护约束所带来的挑战，针对转化后的分布式马尔科夫决策问题，设计一种隐私保护的分布式深度确定性策略梯度算法进行迭代学习，得出隐私保护约束下动态边缘缓存方案，

步骤(1)中，考虑一个典型的多用户单边缘接入节点的移动边缘计算网络场景，边缘接入节点配备有一定计算能力和一定缓存能力的移动边缘计算(Mobile edge computing，MEC)服务器，每个用户的本地设备进行一定的计算和存储，假设有I个用户，表示为I＝{1,2,…,I}，所提供的服务内容库中包含N个文件，表示为F＝{F₁,F₂,…,F_N}，设MEC服务器能够缓存M₀个文件，且服务器在时刻t所缓存的文件集合记为C₀(t)，同时，假设用户i的本地设备能缓存M_i个文件，且用户i的本地设备在时刻t对应的缓存文件为C_i(t)，设M_i＜＜M₀N；

考虑用户i在时刻t的内容请求Fⁱ(t)到达率为λ_i(t)，若该时刻用户i不产生内容请求，则表示为当Fⁱ(t)∈F时，假设每个文件被用户i请求的概率服从参数为αⁱ(t)的Zipf分布，表示为其中Pⁱ(αⁱ(t),t)为用户i在时刻t的内容流行度，也称之为在用户i端的局部流行度；为Fⁱ(t)∈F情况下用户i在时刻t请求文件F_n的概率，基于此，用户i在时刻t的内容请求概率模型可以表示为

用动态变化的αⁱ(t)来反映用户i主观兴趣的变化性，同时考虑到用户兴趣在时间上的前后相关性以及复杂性，将αⁱ(t)的动态性建模成一个包含|G_i|个状态的无模型马尔科夫链，其中集合为用户i所有可能的分布参数集，因此，αⁱ(t)的动态性建模成其中，为αⁱ(t)转移到的转移概率，且在无模型马尔科夫链中该状态转移概率是未知的，当用户i请求的文件Fⁱ(t)在当前时刻未被缓存在其本地设备上时，将这种情况表示为此时，用户将向边缘接入节点发送内容请求，以获取当前所需的内容文件，因此，MEC服务器端在时刻t也会形成一个动态变化的内容流行度，称之为全局流行度，记为其中表示整个服务范围内，文件F_n在时刻t被请求的概率；

步骤(3)中，构造出来的分布式优化问题都是非凸优化问题，且目标函数都是时间上的累计期望，所求解的都是包含时间维度的策略，首先，原分布式优化问题转化为分布式的状态转移概率未知的无模型马尔科夫决策过程问题，状态空间，动作空间和奖励函数设置如下

状态空间：考虑到时间变量，MEC端的状态空间和用户i本地端的状态空间可以分别表示为S₀＝{s₀(t)∣t＝0,1,2,…}和S_i＝{s_i(t)∣t＝0,1,2,…}，其中s₀(t)＝{C₀(t),R^G(t)}，s_i(t)＝{C_i(t),Rⁱ(t)}，Rⁱ(t)＝[Fⁱ(t-H),…,Fⁱ(t)]为用户i的历史请求信息提取器，H为提取器的观测窗口长度；

动作空间：根据原优化问题中的定义，分别为A₀和

奖励函数：MEC服务器端和用户i本地端的单步奖励分别设置为H₀(t)和在此基础上，MEC服务器端和用户i本地端从时刻t开始的累计奖励函数可以定义为和

然而，在上述MEC服务器端定义的状态空间中，包含了任意时刻的用户请求信息R^G(t)，MEC服务器时无权保存任何时刻的用户请求信息R^G(t)，利用全局流行度和局部流行度来分别替换R^G(t)和Rⁱ(t)，并采用一种联邦学习算法来进行流行度预测，同时保护用户隐私，具体地，替换后的系统状态表示为

其中，为Pⁱ(αⁱ(t+1),t+1)的预测值，为P^G(t+1)的预测值，和分别表示局部预测模型和全局预测模型，采用基于长短期记忆的自编码器神经网络来搭建局部和全局预测模型，Θⁱ和Θ^G分别为局部预测模型和全局预测模型的网络参数，采用基于联邦学习的分布式训练架构来实现保护用户隐私的同时对Θⁱ和Θ^G进行训练，MEC服务器端采用平均加权的方式来获得Θ^G，表示为

其中ω_i为加权因子，

经过以上问题的转化，最后采用一种基于隐私保护的分布式深度确定性策略梯度(Privacy-preserving distributed deep deterministic policy gradient，P2D3PG)算法来进行分布式迭代学习求解，学习到的策略由actor网络输出，表示为为策略π的参数化表示，Θ^A为actor网络的网络参数。

2.根据权利要求1 所述的移动边缘计算网络中基于分布式强化学习的隐私保护动态边缘缓存设计方法，其特征在于，步骤(2)中，在MEC服务器端，服务器在时刻t接收到来自用户的请求信息后将会立即检查自己当前的缓存状态C₀(t)，若存在需求文件未被缓存，则服务器会接入云端去获取缺失文件因此，为MEC服务器在每个时刻所对应的输入文件，MEC服务器端无权保留任何时刻的用户请求信息R^G(t)，即在每下个时刻t+1到来之前，服务器都必须将R^G(t)信息全部删除以保护用户的隐私信息，定义MEC服务器的缓存更新动作其中，用于决策新输入文件集中哪些需要被保存下来，当时表示文件需要被存储下来，否则该文件被直接丢弃，用于决策原始缓存C₀(t)中，哪些文件需要被擦除，当时表示原始缓存中文件需要被擦除，否则表示文件可以被继续保留，为了最大化缓存资源利用率，有|C₀(t)|＝M₀，同时受限于服务器缓存容量的限制，有

以此保证服务器缓存实体中的内容充盈但又不溢出，在用户i本地设备端，每个时刻t所对应的输入文件表示为定义a_i(t)为用户i本地设备在时刻t的缓存更新动作，表示为其中，取值1或0用于指示文件的擦除或继续保存在缓存中，取值1或0用于指示文件的保留或直接丢弃，同样，受限于用户本地设备的缓存容量，有

根据每个时刻，各个缓存设备的缓存状态以及相应的文件请求，得到系统中所有缓存实体的实时缓存命中率，具体地，MEC服务器的实时缓存命中率可以表示为

任意用户i的实时缓存命中率为

考虑到H_i(t)只存在0或100％两种取值情况，进一步定义H_i(t)的滑动平均值

其中，T_h为滑动窗口的长度；

分布式的优化模型可以表示为MEC服务器端和用户端，对于MEC服务器，优化问题为P₁:

s.t.

|C₀(t)|≤M₀,

其中为MEC服务器端的动态缓存更新策略，指导服务器在任意时刻有效地进行缓存更新，χ∈[0,1]为折扣因子，Γ为时隙数，且M₀＝{1,2,…,M₀}，对于用户i的本地端，优化问题为

P₂:

s.t.

|C_i(t)|≤M_i,