[发明专利]MEC中近似最优化与基于强化学习的任务卸载方法有效
申请号: | 201911300667.2 | 申请日: | 2019-12-17 |
公开(公告)号: | CN110971706B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 夏秋粉;娄铮;徐子川 | 申请(专利权)人: | 大连理工大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | mec 近似 优化 基于 强化 学习 任务 卸载 方法 | ||
1.一种MEC中近似最优化与基于强化学习的任务卸载方法,由两部分组成:一部分是基于整数线性规划的近似最优化方法,通过松弛-过滤-舍入的方法,给出近似最优的卸载策略与资源分配策略;另一部分是基于强化学习理论,使用线性回归方法预测并给出卸载策略,然后在此基础上通过深度神经网络进一步给出相应的最优资源分配策略;其特征在于,
(1)移动边缘计算卸载模型的具体建立过程如下:
(1.1)考虑一个由多个边缘云服务器组成的边缘计算网络其中分别代表一个边缘云服务器、一个数据中心以及一个无线接入点;边缘云服务器和数据中心都用来卸载用户发送来的计算任务,无线接入点负责连接用户与服务器并进行数据的传输;使用Lh表示计算服务器,即使用C(Lh)以及C(APk)分别代表服务器的计算能力和接入点的带宽容量,使用nap表示无线接入点分配给每个用户的传输带宽;
(1.2)定义用户集合U={ui|1≤i≤M};一个用户可连接到任何在他的通信范围之内的接入点AP,以此来连接到一个CL或DC;在这里,考虑一个较长的监控时期T,并将其细分为数个等长的短时期t∈T;假设每一次决策都是发生在一个短周期t中;
(1.3)定义一个待卸载的计算任务为τi,t=Wi,t,t,fi,t,D(τi,t),其中Wi,t为任务的计算量,fi,t为任务的大小,D(τi,t)为任务的延迟需求,即必须在此时间内完成这项任务;
(2)计算任务运行模型与问题模型的建立过程如下:
(2.1)当任务被卸载到某一个云计算服务器上时,它的运行时间为
其中,nap表示无线接入点分配给每个用户的传输带宽,yi,t,h代表卸载指示变量,当其值为1时表示进行卸载,为0时表示在本地运行;p(Lh)表示Lh的计算速度;α为一个常数,表示计算结果与原始任务大小的比例;
(2.2)当计算任务在用户设备本地执行时,它的运行时间为
其中,p(ui)表示用户设备的计算速度;
(2.3)根据上述关系式,得当任务被卸载到服务器上运行时的用户设备能耗:
其中,zi,t,k为指示变量,表示任务τi,t是否经由APk卸载;βk为一常数,表示传输单位数据时的能耗;Pidle和Pt分别为用户设备的闲时功率和传输时功率;
(2.4)同样得任务在用户设备本地运行时的用户设备能耗:
其中,表示用户设备的计算时功率;
(2.5)基于上述定义,以最小化所有用户设备的能耗为目标,制定整数线性规划问题如下:
相关约束如下:
yi,t,h,zi,t,k∈{0,1}#(12)
其中,(6)式确保每一个被卸载至云服务器的任务都必须被分配一个用来传输数据的无线接入点;(7)式确保所有在某台云服务器上运行的计算任务的计算量不能超过这台服务器的计算能力上限;(8)式确保所有经由某无线接入点进行传输的用户设备所分配的带宽资源之和不能超过这个无线接入点的带宽上限;(9)式中表示设备i的剩余电量,此项约束确保在时期T内,用户设备所消耗的总能量不能超过设备自身剩余的电量;(10)式和(11)式确保所有任务在远程或是本地执行时不能超过它所规定的延迟要求,其中D(τi,t,MD)为在用户设备本地运行任务所需时间;(12)式确保y,z两个变量的取值必须是0或1;
(3)为了求解上述优化问题,首先对整数线性规划问题的整数约束条件进行松弛操作,以使其转化为可解的线性规划问题;然后对求解结果进行过滤操作,以去除其中不满足原约束条件的候选解;最后,比较各个候选解的执行性能,只保留性能最优的候选解作为最终解,舍去其余部分;最终解包含每一个用户的任务卸载策略与对应的资源分配策略;具体过程如下:
(3.1)首先对问题进行松弛处理,去除原问题中的约束(12)式,将其转化为线性规划问题求解,得到最优解(y*,z*);
(3.2)接下来根据求得的最优解,对所有候选卸载地点进行过滤;将原问题的目标函数定义为两个函数之和F(y)+θ(z),其中:
为了将边缘云服务器和无线接入点中比在用户设备本地运行计算任务时会产生高于(1+∈)倍的能量消耗的候选解过滤掉,首先要定义两个值和分别代表候选解中任务计算量与边缘云服务器计算能力之比的最大值、候选解中计算任务数据量与无线接入点带宽容量之比的最大值:
再定义延迟所有计算任务在每个边缘云服务器的计算时间与计算任务的延迟要求之比的最大值,以及在用户设备本地的计算时间与计算任务的延迟要求之比最大值,取二者中的最小值记为
对于任务τi,t,将过滤后的候选运行地点与候选无线接入点分别记为Li,t和APi,t,则过滤规则为:
其中
θi,t(z)与之同理;此外,ϵ 、σ与φ为3个常量,用以控制过滤规则;通过对这三个常量的调整得到更加合理的过滤结果;
由此得到原问题(5)式对应的线性规划问题的可行解(y′,z′):
(3.3)下面对上一步中得到的可行解进行舍入操作;首先根据线性规划问题的最优解(y*,z*)选择计算消耗最小的任务τi,t,对于这个任务,拟将其放置在候选地点Li,t中产生计算消耗最小的地点θ(h),即令yi,t,θ(h)=1;对于此计算任务,如果在用户设备本地运行会产生更少的功耗,则令yi,t,h=0,其中Lh∈Li,t;重复上述过程,直到所有的计算任务都被分配到一个指定的运行地点;此时,即得到问题(5)式的一个最优可行解,即满足约束条件的、使得所有用户设备的能耗最低的计算任务卸载策略与资源分配策略;
(4)针对问题(5)式,给出另一种基于强化学习理论的在线解法;与上述步骤(3)解法不同,在线算法在每个时间段给出当前的最优解,而不需要在收集所有时间段的信息后再一一求解各时间段的最优解;原问题要求解的是使得所有用户设备的能耗最低的计算任务卸载策略与资源分配策略;首先给出基于强化学习理论的计算任务卸载策略的求解过程:
(4.1)首先根据强化学习理论,定义出待解决的问题中的几个重要部分;强化学习过程需要将原问题转化为一个马尔科夫决策过程,即由状态、动作、奖励三部分组成的过程;系统从所处的某一状态开始,根据当前状态选择动作并加以执行,而后到达新的状态,并取得新状态对应的奖励;定义每个用户设备在t时间段的剩余电量Rresidual为其在t时间段所处的状态;在每个状态下,用户设备的可选动作为其中三个决策动作分别代表无动作、将计算任务在本地运行、将计算任务卸载到边缘云服务器运行;每个状态的奖励信息Rt定义为到达此状态时的能量消耗的相反数-Ei;
(4.2)根据上述定义,从起始时刻t=1起,对于用户i进行如下操作:计算当前状态下获得的奖励Rt与上一状态下的奖励Rt-1之差Δ;然后比较Δ与δ,其中δ为预定义的阈值;若Δ大于δ,则首先通过线性回归方法,通过过去p个状态下的计算任务能量消耗来预测时刻t的计算任务τi,t的能量消耗:
E(τi,t)=a1·E(τi,t-1)+a2·E(τi,t-2)+…+ap·E(τi,t-p)#(23)
接下来计算所处时刻的待执行计算任务τi,t卸载到边缘云服务器时产生的能耗,将其与预测值E(τi,t)比较;如果采取卸载动作产生的能耗更少,则将卸载至边缘云服务器作为计算任务τi,t的卸载策略,输出动作a=1;否则将在用户设备本地运行作为卸载策略,输出动作a=0,即不进行卸载;在每个时间段执行上述过程,即在线地得到每个时间段中每个用户各自的卸载策略;
(5)由上述过程得到的卸载策略将决定哪些计算任务在用户设备本地运行,哪些计算任务将被卸载到边缘云服务器上运行;对于将要卸载到边缘云服务器上运行的任务,下面给出基于深度强化学习方法的在线资源分配策略,以决定卸载过程中所使用的无线接入点以及作为目标的边缘云服务器,具体过程如下:
(5.1)首先将边缘网络结构抽象为一个带权有向图Graph(V,Eb,w);其中,V是顶点集合,Eb是边集合,w是边的权重集合;对于一条边(u,v)∈Eb,w(u,v)代表它的权重;集合V中包含一个用户顶点、数个无线接入点顶点以及数个边缘服务器顶点;用户顶点与每个无线接入点顶点之间都有一条有向边,由前者指向后者;而每个无线接入点顶点都与至少一个边缘服务器顶点之间有一条有向边,同样由前者指向后者;两个顶点之间有有向边,代表源顶点沿此方向连接到目标顶点;每条有向边的权重所代表的含义由它所指向的顶点来决定:如果一条有向边指向一个无线接入点顶点,则它的权重代表这个无线接入点的带宽容量;如果一条有向边指向一个边缘云服务器顶点,则它的权重代表这个边缘云服务器的计算能力;也就是说,一个无线接入点的带宽或边缘云服务器的计算能力越大,则指向它的边的权重也就越大;这样得到网络结构的图的表达形式,同时网络结构的参数也被以权重的方式体现在图中;
(5.2)然后使用structure2vec算法构建一个图嵌入网络,为图中的每一个顶点计算其对应的图嵌入值向量,目的是将图中每个顶点的结构信息转化为向量信息,以便于将其作为后续神经网络的输入;其中每个顶点的图嵌入值由多次迭代生成;具体图嵌入网络如下:
其中,代表顶点v在第t次迭代后的图嵌入值,初始值默认为0;N(v)代表与顶点v相邻的顶点的集合;为与顶点v相邻的顶点u在第t次迭代后的图嵌入值;relu为线性整流函数,θ为神经网络参数;xv为指示器变量,代表顶点v是否属于局部解,初始化为0;可见经过数次迭代计算后,图中每一个顶点的特征值都会由其自身以及相邻顶点、相邻边的特征所共同决定;
(5.3)将上述的图嵌入网络结合深度强化学习模型,构建深度强化学习网络;网络的输入为上一步求得的图嵌入值,输出为对应输入顶点的状态-动作值表达式为:
其中,Θ为网络参数θ的集合;h(S)为当前整个系统的状态,由当整个图的图嵌入值来表示;
(5.4)构建如上两个神经网络后,还需初始化经验重放缓存;当收到卸载请求时,将图中一个顶点v的信息作为输入,由式(24)迭代得到该顶点的图嵌入值后,将嵌入值作为式(25)的输入得到对应顶点的状态-动作值对于所有顶点进行上述操作后,将其中状态-动作值最大的顶点作为卸载路径中的一个顶点,并记xv=1;对于图中每个顶点,重复上述步骤,直到将边缘云服务器顶点放置到卸载路径集合Vt中;此时,卸载路径中的顶点就是最优的资源分配决策,其中包括对于本次卸载任务所应连接的无线接入点以及边缘云服务器;至此,即可在线地得到每一次卸载请求对应的网络资源和计算资源分配策略;
(5.5)在得到神经网络输出的策略同时,获取此策略带来的奖励Rt,此处的收益定义为本分配策略所产生的能耗的相反数然后将本次决策过程的状态信息St、决策结果Vt、奖励Rt,以及所到达的新的状态信息St+1存储至经验重放缓存中作为历史经验;在随后的决策过程中,每隔N次决策过程,从缓存中随机抽取一批历史经验训练神经网络参数;方法为使用随机梯度下降法,沿使收益增加的方向调整神经网络参数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911300667.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钻孔灌注桩施工方法
- 下一篇:一种蛋鸡养殖用的排风装置