[发明专利]一种基于智能边缘缓存的部分机会性干扰对齐方法有效

申请号：	202010236488.3	申请日：	2020-03-30
公开（公告）号：	CN111556511B	公开（公告）日：	2022-05-17
发明（设计）人：	郑杰;胡心悦;梁雨昕;张泽仑;高岭;王海;杨旭东	申请（专利权）人：	西北大学
主分类号：	H04W16/22	分类号：	H04W16/22;H04W28/02;H04W28/14;H04B7/0456
代理公司：	西安西达专利代理有限责任公司 61202	代理人：	刘华
地址：	710069 陕西***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能边缘缓存部分机会干扰对齐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于智能边缘缓存的部分机会性干扰对齐方法，其特征在于，该基于智能边缘缓存的部分机会性干扰对齐方法包括以下步骤：

1)构建一个异构网络系统，该系统由宏基站、微基站以及用户组成,基站周期获得用户的内容动态请求和用户无线信道状态，以及基站下行传输中缓存内容的更新，其中基站的下行传输分为两个阶段：内容缓存放置阶段和内容的分发传输阶段；

2)宏基站和微基站收集用户请求内容信息和用户的信道状态信息；其中收集用户请求的内容用于进行基站内容缓存放置，信道的状态信息主要用于基于部分机会干扰对齐内容的分发传输；

3)基于深度强化学习技术进行系统状态的建模，系统的状态包含两个部分：信道的状态和基站内容缓存的状态；基于深度强化学习方法对用户动态的内容请求和时变的信道状态信息进行建模，其中时变的信道状态信息为马尔科夫链，请求时变的边缘基站缓存更新问题建模为马尔可夫决策过程(MDP)；

基于深度强化学习对时变的信道状态和动态内容要求的执行步骤如下：

步骤一，将信道状态和基站内容请求命中的状态空间设置为：S_t＝{s₁,s₂,...,s_K}，K为基站个数，通过CSI和边缘缓存共同确定时隙t的系统状态，在时隙t，系统状态可以描述为s(t)＝{|h_i,j(t)|²,c_k(t)}，系统状态分为两部分：一部分为部分机会干扰对齐的信道增益|h_i,j(t)|²，其中作为马尔可夫随机变量，U_i和V_i物联网用户i的预编码矩阵，H_i,j表示基站j和用户i之间的信道增益；另一部分为第k个基站的缓存状态c_k(t)∈{0,1}；

步骤二，将K个基站的动作集合设置为D_t＝{d₁,d₂,...,d_K}，当前系统动作为d(t)＝{d₁(t),d₂(t),...,d_K(t)}，d_k(t)表示第k个基站的动作，d_k(t)＝0，表示在时隙t，内容不能放置在第k个基站中，d_k(t)＝1表示它可以放置在第k个基站中；部分机会干扰对齐用户应满足条件在当前状态s(t)∈S_t下，基站进行动作d(t)∈D_t，然后系统状态以转移概率P_s(t)s(t+1)(d)转换到新的s(t+1)∈S_t，如果执行动作π(x)，则P_s(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率，π(x)指从状态s(t)到s(t+1)的转移概率最优的动作方案，该动作是通过马尔可夫决策过程(MDP)获得；

步骤三，将瞬时奖励表示为R(s(t),d(t),s(t+1))，其平均奖励为R(x,π(x))，为获得长期奖励，系统行为应该共同考虑眼前的奖励和未来的奖励，为了长期最大化累积奖励，使用以下状态值函数获得S_t的累计折扣奖励：

其中R(s(t),d(t),s(t+1))表示基站动作d(t)在s(t)和s(t+1)状态转移获得的瞬时奖励，0＜η＜1是长期奖励的贴现率，η_t是η在时隙t时的贴现率，强化学习的目标是在无限的T时间上得到一个最优方案d^*＝π(x)∈S(t)；

步骤四，每个状态的值由当前状态和下一状态两者确保，当前状态s(t)的值是对先前状态V(s)的累积奖励求期望来获得的：

其中E表示期望值；

步骤五，利用Bellman准则得到最优累积期望；

步骤六，使用Q学习获得最优策略π^*，Q函数可以描述如下：

最大Q函数可以表示为：

Q函数可以更新为：

其中0＜ρ＜1表示学习速率，学习速率值越大，整个算法的收敛速度越快，反之亦然；

步骤七，通过最小化损失函数，训练深度Q函数得到目标值，损失函数L(θ)可以表示为L(θ)＝E[y-Q(s,d,θ)]²，其中y表示期望收到激励，θ为损失函数L(θ)中训练深度Q函数的输入，更新的损失函数模型；

4)通过宏基站确定宏基站和微基站中内容放置状态，并且选择部分用户形成部分机会干扰对齐用户组，确定宏基站集中处理的系统动作d(t)；

5)基于最小内容交付时延，确定所有候选基站的累积瞬时奖励r(t)，当在时隙t中执行系统动作d(t)时，宏基站在状态s(t)中获得r(t)，基于最大的累积奖励在宏基站深度Q网络中得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法，其中μ_t表示终止操作的门限值，即当t非常大时，μ_t接近于零；

第k个候选基站的系统奖励函数可以表示为：

其中，e(u_f(t))表示用户u请求内容f，即基站在时隙t新缓存的内容，如果用户请求的内容不在微基站缓存中，则微基站应将该内容请求发送给宏基站，即云平台，如果用户的请求在微基站的缓存内，则第k个候选基站可以获得最大传输速率，从而使部分机会干扰对齐的用户能够接入该基站，可以使用e⁺(u_f(t))来奖励微基站的高速缓存命中，并且e^-(u_f(t))表示对具有高速缓存未命中的微基站的惩罚；

6)在部分机会干扰对齐用户组内，利用迭代干扰对齐得到预编码矩阵和译码矩阵，从而对用户所要求的信息进行分发。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北大学，未经西北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010236488.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多源信息融合的工厂生产场景CPS建模方法
下一篇：一种便携式预防鼠标手的康复辅具

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W16-00 网络规划，例如覆盖或业务量规划工具；网络配置，例如资源划分或小区结构
H04W16-02 .在各网络组成部分当中的资源划分，例如，再用划分
H04W16-14 .频谱共享装置
H04W16-18 .网络规划工具
H04W16-22 .业务量模拟工具或模型
H04W16-24 .小区结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于智能边缘缓存的部分机会性干扰对齐方法有效

专利文献下载