[发明专利]基于值函数近似的超密集异构网络小站编码协作缓存方法有效

专利信息
申请号: 201811634918.6 申请日: 2018-12-29
公开(公告)号: CN109617991B 公开(公告)日: 2021-03-30
发明(设计)人: 潘志文;高深;刘楠;尤肖虎 申请(专利权)人: 东南大学
主分类号: H04L29/08 分类号: H04L29/08;H04W28/14
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 施昊
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 函数 似的 密集 网络 小站 编码 协作 缓存 方法
【权利要求书】:

1.基于值函数近似的超密集异构网络小站编码协作缓存方法,其特征在于:将宏基站及其覆盖范围内的小站作为机器,宏基站负责决定每个时隙状态下小站要执行的动作并下达给各小站,各小站负责执行动作,所述状态包括本时隙的文件流行度和前一时隙做出的协作缓存决策,所述动作是指本时隙做出的为下一时隙文件请求服务协作缓存决策;采用值函数近似的强化学习方法,将值函数表达为状态和动作的函数,以最大化平均累积小站直接服务的文件请求数目为优化目标,通过不断地与环境交互,适应环境的动态变化,挖掘出潜在的文件请求转移模式,得到值函数的近似式,进而得到与文件请求转移模式相匹配的协作缓存决策;宏基站对协作缓存决策进行编码,并将编码协作缓存结果传达给各小站;

包括以下步骤:

步骤1、采集网络信息,设置参数:

采集网络中的宏基站集合M、小站集合P、文件请求集合C1以及第m个宏基站覆盖范围内的小站数目pm,m∈M;获得小站缓存空间K,运营商根据网络运行情况和硬件成本确定站缓存空间K;运营商根据超密集异构网络中的文件请求情况将一天时间划分为T个时隙,并设置每个时隙的时间起点,根据发生时间先后将每个时隙划分为三个阶段:文件传输阶段、信息交换阶段和缓存决策阶段;

步骤2、制定基于MDS编码的基站协作缓存方案:

将小站的协作缓存决策向量记为a(t),a(t)中的每个元素ac(t)∈[0,1],c∈C1,代表在第t时隙小站缓存第c个文件的比例,ac(t)≠0的文件集合即是t时隙缓存的文件集合,记为C'(t),第c个文件包含B个信息比特,第m个宏基站通过MDS编码把B个信息比特编码生成个校验比特:

上式中,d是接收信号功率大于一个阈值的小站的个数,阈值由运营商根据网络运行情况确定,所有个校验比特分为小站候选比特和宏基站候选比特两部分,其中小站候选比特包含pmB个比特,即每个小站有互不重复的B个候选比特,在t时隙每个小站从各自的候选比特中选择前ac(t)B个比特进行缓存;宏基站从其候选比特中任意选取(1-dac(t))B个比特进行缓存,根据MDS编码性质,一次文件请求获得至少B个校验比特就能够恢复整个文件;

步骤3、制定基站协作传输方案:

用户的每次文件请求首先从覆盖它的d个小站获得dac(t)B个比特,若dac(t)≥1,则宏基站不需再传输数据;否则宏基站从d个小站中选择距离用户最近的一个小站,传输(1-dac(t))B个比特给该小站,然后由该小站把这些比特传输给用户,宏基站传输的数据称为回程链路负载;

步骤4、用马尔科夫决策过程MDP来描述强化学习任务:

建立强化学习四元组其中X代表状态空间,A代表动作空间,代表状态转移概率,在x状态下执行动作a转移到x′状态的概率,代表该转移带来的奖赏;

强化学习四元组具体形式如下:

动作空间:由于缓存决策向量包含的元素个数等于集合C1的元素个数C,因此动作空间是C维连续空间,把每维ac(t)量化成L个离散值,L由运营商根据宏站计算能力确定,则离散化的动作空间为A={a1,a2,…,a|A|},其中任意一个动作向量j∈{1,2,…,|A|}需满足条件:满足该条件的动作向量总个数为|A|,第t时隙的缓存决策a(t)∈A;

状态空间:在第t时隙,第m个宏站覆盖范围内的pm个小站文件请求总次数记为向量N(t)=[N1(t),N2(t),…,NC(t)],总文件流行度记为向量Θ(t)=[θ1(t),θ2(t),…,θC(t)],其中那么第t时隙的状态记为x(t)=[Θ(t),a(t-1)];令H={Θ12,…,Θ|H|}为总文件流行度集合,Θ(t)经量化后即为集合H中的一个元素,则状态空间记为X={x1,x2,…,x|H||A|},状态x(t)∈X;

状态转移概率:在第t时隙执行动作a(t)后,该动作作用到当前的状态x(t)上,环境从当前状态以潜在的转移概率转移到下一个状态x(t+1),该转移概率是未知的;

奖赏:在环境转移到x(t+1)的同时,环境会给机器一个奖赏,奖赏在这里定义成小站直接服务的文件请求数目:

上式中,u[·]代表阶跃函数,为在第t时隙的缓存决策阶段更新小站缓存需传输的文件数目,为在第(t+1)时隙的信息交换阶段由宏基站传输的文件数目;

步骤5、明确强化学习目标:

定义确定性策略函数π(x),x∈X,根据该策略知,在状态x(t)下要执行的动作a(t)=π(x(t)),则状态值函数:

上式中,代表从状态x(t)出发,使用策略π所带来的累积奖赏,0≤γ<1是t时隙执行的动作π(x(t))对将来状态影响程度的度量;

得到状态值函数后,便得到状态-动作值函数,即Q函数:

上式中,代表从状态x(t)出发,执行动作a'(t)后再使用策略π带来的累积奖赏;

用x,x',a分别代替x(t),x(t+1),a'(t),目标是找到使期望累积奖赏最大的策略记为π*(x),最优值函数为根据最优策略得到:

也即:

步骤6、制定基于值函数近似的Q-learning过程:

(601)用值函数近似的方法来表示Q函数,即将Q函数表示为状态和动作的函数,受瞬时奖赏的启发,在状态x(t)下,执行动作a'(t),Q函数近似表示为:

上式中,ω1和ω2代表两部分的权重,设置ω1>>ω2,β,ηi,ξi是未知的参数,需要通过学习得到;

(602)求解协作缓存决策:

(603)建立Q-learning的目标:

根据上式计算在状态x(t)下,执行动作a(t)所带来累积奖赏真实值:

上式中,为状态x(t+1)下的动作估计值;

(604)定义损失函数:

上式中,η=[η12,…,ηC],ξ=[ξ12,…,ξC],Eπ表示对策略π求期望;

根据损失函数更新参数β,η,ξ;

步骤7、设置当前时隙t=1,随机设置起始状态x(t)=[Θ(t),a(t-1)],参数初始值βp=0,ηp=0,ξp=0,运营商根据网络变化快慢设置γ的值,范围为[0,1),根据要更新的参数的数量级确定更新步长δ的值,范围为(0,1],根据网络规模设置训练时隙的个数ttotal

步骤8、在t时隙的缓存决策阶段,使用ε-贪心法的策略取状态x(t)下要执行的协作缓存决策a(t);

步骤9、宏基站根据步骤2将需要缓存的文件进行MDS编码,并将编码后的数据包传输给小站缓存;

步骤10、在t+1时隙的文件传输阶段,用户请求文件,基站根据步骤3协作传输为用户服务;

步骤11、在t+1时隙的信息交换阶段,每个宏基站覆盖范围内的所有小站将其在t+1时隙内文件请求次数报告给宏基站,宏基站汇总文件请求总次数记为向量N(t+1),并计算总文件流行度记为向量Θ(t+1);

步骤12、转移到的状态为x(t+1)=[Θ(t+1),a(t)],计算奖赏函数

步骤13、估计在状态x(t+1)下要执行的动作:

步骤14、根据步骤(604)更新Q函数近似式中的参数;

步骤15、如果t=ttotal,则停止训练,进入步骤16;否则,t=t+1,进入下一时隙,回到步骤8,继续训练;

步骤16、从t时隙开始,基于训练得到的Q函数近似式确定协作缓存决策,服务于下一时隙的文件请求。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811634918.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top