[发明专利]基于值函数近似的超密集异构网络小站编码协作缓存方法有效
申请号: | 201811634918.6 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109617991B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 潘志文;高深;刘楠;尤肖虎 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04W28/14 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 施昊 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 函数 似的 密集 网络 小站 编码 协作 缓存 方法 | ||
1.基于值函数近似的超密集异构网络小站编码协作缓存方法,其特征在于:将宏基站及其覆盖范围内的小站作为机器,宏基站负责决定每个时隙状态下小站要执行的动作并下达给各小站,各小站负责执行动作,所述状态包括本时隙的文件流行度和前一时隙做出的协作缓存决策,所述动作是指本时隙做出的为下一时隙文件请求服务协作缓存决策;采用值函数近似的强化学习方法,将值函数表达为状态和动作的函数,以最大化平均累积小站直接服务的文件请求数目为优化目标,通过不断地与环境交互,适应环境的动态变化,挖掘出潜在的文件请求转移模式,得到值函数的近似式,进而得到与文件请求转移模式相匹配的协作缓存决策;宏基站对协作缓存决策进行编码,并将编码协作缓存结果传达给各小站;
包括以下步骤:
步骤1、采集网络信息,设置参数:
采集网络中的宏基站集合M、小站集合P、文件请求集合C1以及第m个宏基站覆盖范围内的小站数目pm,m∈M;获得小站缓存空间K,运营商根据网络运行情况和硬件成本确定站缓存空间K;运营商根据超密集异构网络中的文件请求情况将一天时间划分为T个时隙,并设置每个时隙的时间起点,根据发生时间先后将每个时隙划分为三个阶段:文件传输阶段、信息交换阶段和缓存决策阶段;
步骤2、制定基于MDS编码的基站协作缓存方案:
将小站的协作缓存决策向量记为a(t),a(t)中的每个元素ac(t)∈[0,1],c∈C1,代表在第t时隙小站缓存第c个文件的比例,ac(t)≠0的文件集合即是t时隙缓存的文件集合,记为C'(t),第c个文件包含B个信息比特,第m个宏基站通过MDS编码把B个信息比特编码生成个校验比特:
上式中,d是接收信号功率大于一个阈值的小站的个数,阈值由运营商根据网络运行情况确定,所有个校验比特分为小站候选比特和宏基站候选比特两部分,其中小站候选比特包含pmB个比特,即每个小站有互不重复的B个候选比特,在t时隙每个小站从各自的候选比特中选择前ac(t)B个比特进行缓存;宏基站从其候选比特中任意选取(1-dac(t))B个比特进行缓存,根据MDS编码性质,一次文件请求获得至少B个校验比特就能够恢复整个文件;
步骤3、制定基站协作传输方案:
用户的每次文件请求首先从覆盖它的d个小站获得dac(t)B个比特,若dac(t)≥1,则宏基站不需再传输数据;否则宏基站从d个小站中选择距离用户最近的一个小站,传输(1-dac(t))B个比特给该小站,然后由该小站把这些比特传输给用户,宏基站传输的数据称为回程链路负载;
步骤4、用马尔科夫决策过程MDP来描述强化学习任务:
建立强化学习四元组其中X代表状态空间,A代表动作空间,代表状态转移概率,在x状态下执行动作a转移到x′状态的概率,代表该转移带来的奖赏;
强化学习四元组具体形式如下:
动作空间:由于缓存决策向量包含的元素个数等于集合C1的元素个数C,因此动作空间是C维连续空间,把每维ac(t)量化成L个离散值,L由运营商根据宏站计算能力确定,则离散化的动作空间为A={a1,a2,…,a|A|},其中任意一个动作向量j∈{1,2,…,|A|}需满足条件:满足该条件的动作向量总个数为|A|,第t时隙的缓存决策a(t)∈A;
状态空间:在第t时隙,第m个宏站覆盖范围内的pm个小站文件请求总次数记为向量N(t)=[N1(t),N2(t),…,NC(t)],总文件流行度记为向量Θ(t)=[θ1(t),θ2(t),…,θC(t)],其中那么第t时隙的状态记为x(t)=[Θ(t),a(t-1)];令H={Θ1,Θ2,…,Θ|H|}为总文件流行度集合,Θ(t)经量化后即为集合H中的一个元素,则状态空间记为X={x1,x2,…,x|H||A|},状态x(t)∈X;
状态转移概率:在第t时隙执行动作a(t)后,该动作作用到当前的状态x(t)上,环境从当前状态以潜在的转移概率转移到下一个状态x(t+1),该转移概率是未知的;
奖赏:在环境转移到x(t+1)的同时,环境会给机器一个奖赏,奖赏在这里定义成小站直接服务的文件请求数目:
上式中,u[·]代表阶跃函数,为在第t时隙的缓存决策阶段更新小站缓存需传输的文件数目,为在第(t+1)时隙的信息交换阶段由宏基站传输的文件数目;
步骤5、明确强化学习目标:
定义确定性策略函数π(x),x∈X,根据该策略知,在状态x(t)下要执行的动作a(t)=π(x(t)),则状态值函数:
上式中,代表从状态x(t)出发,使用策略π所带来的累积奖赏,0≤γ<1是t时隙执行的动作π(x(t))对将来状态影响程度的度量;
得到状态值函数后,便得到状态-动作值函数,即Q函数:
上式中,代表从状态x(t)出发,执行动作a'(t)后再使用策略π带来的累积奖赏;
用x,x',a分别代替x(t),x(t+1),a'(t),目标是找到使期望累积奖赏最大的策略记为π*(x),最优值函数为根据最优策略得到:
也即:
步骤6、制定基于值函数近似的Q-learning过程:
(601)用值函数近似的方法来表示Q函数,即将Q函数表示为状态和动作的函数,受瞬时奖赏的启发,在状态x(t)下,执行动作a'(t),Q函数近似表示为:
上式中,ω1和ω2代表两部分的权重,设置ω1>>ω2,β,ηi,ξi是未知的参数,需要通过学习得到;
(602)求解协作缓存决策:
(603)建立Q-learning的目标:
根据上式计算在状态x(t)下,执行动作a(t)所带来累积奖赏真实值:
上式中,为状态x(t+1)下的动作估计值;
(604)定义损失函数:
上式中,η=[η1,η2,…,ηC],ξ=[ξ1,ξ2,…,ξC],Eπ表示对策略π求期望;
根据损失函数更新参数β,η,ξ;
步骤7、设置当前时隙t=1,随机设置起始状态x(t)=[Θ(t),a(t-1)],参数初始值βp=0,ηp=0,ξp=0,运营商根据网络变化快慢设置γ的值,范围为[0,1),根据要更新的参数的数量级确定更新步长δ的值,范围为(0,1],根据网络规模设置训练时隙的个数ttotal;
步骤8、在t时隙的缓存决策阶段,使用ε-贪心法的策略取状态x(t)下要执行的协作缓存决策a(t);
步骤9、宏基站根据步骤2将需要缓存的文件进行MDS编码,并将编码后的数据包传输给小站缓存;
步骤10、在t+1时隙的文件传输阶段,用户请求文件,基站根据步骤3协作传输为用户服务;
步骤11、在t+1时隙的信息交换阶段,每个宏基站覆盖范围内的所有小站将其在t+1时隙内文件请求次数报告给宏基站,宏基站汇总文件请求总次数记为向量N(t+1),并计算总文件流行度记为向量Θ(t+1);
步骤12、转移到的状态为x(t+1)=[Θ(t+1),a(t)],计算奖赏函数
步骤13、估计在状态x(t+1)下要执行的动作:
步骤14、根据步骤(604)更新Q函数近似式中的参数;
步骤15、如果t=ttotal,则停止训练,进入步骤16;否则,t=t+1,进入下一时隙,回到步骤8,继续训练;
步骤16、从t时隙开始,基于训练得到的Q函数近似式确定协作缓存决策,服务于下一时隙的文件请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811634918.6/1.html,转载请声明来源钻瓜专利网。