[发明专利]一种基于深度强化学习的边云协同串行任务卸载方法有效
申请号: | 202110235757.9 | 申请日: | 2021-03-03 |
公开(公告)号: | CN113010282B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王瑞锦;刘东;张凤荔;赵佳俊;蒲文龙 | 申请(专利权)人: | 电子科技大学;四川虹信软件股份有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 协同 串行 任务 卸载 方法 | ||
1.一种基于深度强化学习的边云协同串行任务卸载方法,其特征在于,包括以下步骤:
S1:用户设备产生串行任务,并发送任务卸载请求至MEC服务器;S2:MEC服务器接收到用户设备发送的任务卸载请求后,获取当前系统状态;通过计算获得权重向量,并根据当前状态,得到最优卸载策略,最优卸载策略的获得包括以下子步骤:
S201:输入当前系统状态Sn,初始化权重矩阵和经验池;
S202:初始化状态S1以及预处理序列;
S203:以ε的概率选择随机动作Xw,否则选用最优奖励动作
S204:向系统执行动作Xw;记录该动作下系统和用户状态,根据用户状态更新权重矩阵Ai;
S205:根据权值矩阵和系统状态计算奖励值,返回奖励值rt和状态St+1;
S206:令St+1=St,计算将向量存放至经验池;
S207:从经验池中按优先经验回放策略抽取向量,更新网络参数θ,返回S203;
S208:若St+1若为结束状态,则结束迭代;否则,返回S202;
其中,权重矩阵表示为:
其中,A为权重矩阵;d为任务计算成本标准;t为参考容忍时延标准;q为用户设备服务质量保证优先级;下标1表示第一个微任务,u表示当前微任务;
动作决策值Xw∈{0,1,2,3},表示对任务w做出的决策,0表示该次请求暂时跳过;1表示该任务将在本地执行;2表示该任务将卸载至MEC服务器执行;3表示该任务将卸载至云端执行;状态向量St={Tc,Tm,T1...Tu,Ai,Wu},Ai为该用户的权重向量;Wu为该用户当前提交任务卸载请求的微任务信息,包含计算量需求、数据传输大小、该任务组的时延上限、该任务组已经消耗的时间,Tc为该服务器当前任务的预计完成时间,Tm为该服务器当前任务的预计完成时间,Tu是该用户设备当前任务的预计完成时间,T1表示编号1用户设备预计完成时间;
S3:根据得到的最优卸载策略,执行卸载任务。
2.根据权利要求1所述的一种基于深度强化学习的边云协同串行任务卸载方法,其特征在于,所述权重受能耗、时延、服务质量、不同的用户设备本身的优先级、任务组中某些微任务在不同计算场景下的效率以及系统的费用成本的影响;在对单个微任务计算时延、能耗的同时,也需要对串行任务进行约束,即在确定各项串行任务权重时,需考虑当前任务计算成本标准、参考容忍时延标准以及用户设备服务质量保证优先级。
3.根据权利要求2所述的一种基于深度强化学习的边云协同串行任务卸载方法,其特征在于,所述计算成本和所述参考容忍时延使用z-score标准化所有用户的实际使用情况作为参考标准,质量保证为用户预设优先级。
4.根据权利要求1所述的一种基于深度强化学习的边云协同串行任务卸载方法,其特征在于,所述奖励值通过综合能耗、时延和服务质量三项评价因素,采用min-max标准化方法对该三项评价指标进行归一化,最后得到奖励函数,从而计算得到奖励值。
5.根据权利要求1所述的一种基于深度强化学习的边云协同串行任务卸载方法,其特征在于,所述S3具体为:根据最优卸载策略决定是在本地执行卸载任务,还是上传至MEC服务器或云端执行卸载任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;四川虹信软件股份有限公司,未经电子科技大学;四川虹信软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110235757.9/1.html,转载请声明来源钻瓜专利网。