[发明专利]MEC环境下基于强化学习的多接口自适应数据卸载方法在审
申请号: | 202210038074.9 | 申请日: | 2022-01-13 |
公开(公告)号: | CN114390057A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 韩龙哲;敖晨晨;赵嘉;张翼英;何业慎;欧清海;李胜;梁琨;刘柱;武延年 | 申请(专利权)人: | 南昌工程学院 |
主分类号: | H04L67/1001 | 分类号: | H04L67/1001;H04L47/12;G06N20/00;G06N7/00 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 330099 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | mec 环境 基于 强化 学习 接口 自适应 数据 卸载 方法 | ||
1.一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,包括以下步骤:
将多个用户设备、边缘基站和服务器之间的数据传输策略构成的环境建模为一个有限状态的马尔科夫决策模型;
根据优化目标和网络信息确定当前系统状态;
根据奖励函数对所述马尔科夫决策模型的神经网络进行训练;
基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解;
选择使得奖励函数期望值最小的动作作为最优决策动作,确定数据卸载的传输方式。
2.根据权利要求1所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,所述马尔科夫决策模型包括状态函数和动作函数;状态函数表示如下:
s={Rbsi,Rmdi,Bi,Ti};
其中,rbsi∈Rbsi表示边缘基站i的可用资源;rmdi∈Rmdi表示用户设备i的可用资源;表示用户设备i需要卸载的数据量大小,其中,B为总数据大小;Ti表示智能体i需要将数据Bi传输完的时间约束,超过时间约束,数据将会失效;
动作函数表示如下:
a={idle,WiFi,4G,5G};
上式表示智能体可以选择的动作,用户设备在每个决策阶段的动作a是选择通过WiFi或4G或5G网络传输模式进行数据传输,或者是保持空闲状态idle。
3.根据权利要求1所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,所述奖励函数包括时延函数和能耗函数;所述时延函数具体表示如下:
Ti,t(s,a)=D/Vtran;
其中,D表示需要卸载的数据量,Vtran表示数据的传输速度;
所述能耗函数具体表示如下:
δi,t(s,a)=εtran(l,a)*D/Vtran;
其中,εtran(l,a)表示在单位时间内的传输能量消耗。
4.根据权利要求1所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解的过程为:
每个智能体随机获得一个初始动作Q值;
基于各智能体的局部状态获得决策动作;
执行当前状态下的决策动作,环境到达下一个状态,使用深度强化学习算法对动作Q值进行迭代更新,得到一个最优策略;
利用所述最优策略减少约束时间内的预期总成本;所述预期总成本包括时间延迟和能量消耗。
5.根据权利要求4所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,利用下式获得所述最优策略
A表示智能体可以选择的动作集合;Q*(s,a)表示在状态s执行动作a获得的状态动作值;
迭代学习Q*(s,a),表达式如下:
其中,π=(π1,...,πi),πi表示用户设备i的策略,每个用户设备的目标是减小预期总成本;表示智能体i在时刻t+1基于策略π获得的动作值函数,xt=(s1,...,si)表示在时刻t所有智能体局部状态的集合;an表示智能体n选择的动作;αt∈(0,1]表示学习率;δt=δi,t=ri,t(s,a)+ri,t(s,a)表示智能体i在状态s执行动作a获得的奖励;λ表示折扣因子;a’n表示智能体n在s’的动作,s’表示所有智能体在状态s执行相应动作后环境到达的下一个状态;x’t表示在时间t所有智能体局部环境的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌工程学院,未经南昌工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210038074.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自回位斜顶机构
- 下一篇:一种材料喷涂用的低压高雾化喷枪