[发明专利]一种基于迁移学习的无人机内容缓存决策方法有效
申请号: | 202110874224.5 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113596160B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 张科;王璐;司鼎鑫;冷甦鹏 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L67/568 | 分类号: | H04L67/568;H04L67/12 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 无人机 内容 缓存 决策 方法 | ||
1.一种基于迁移学习的无人机内容缓存决策方法,包括以下步骤:
S1、无人机A依其服务范围sa产生内容缓存问题,与环境交互产生数据放入缓冲区,利用所述数据训练强化学习模型,解决内容缓存问题;
以地面宏基站为原点建立三维直角坐标系,则无人机A的位置由LUAV(t):(xUAV(t),yUAV(t),h)来表示,其中,xUAV(t)、yUAV(t)分别表示t时刻无人机A的横坐标、纵坐标,h表示无人机A离地面的高度,在t时刻,用户n对内容m的请求可以描述为rnm(t)∈{0,1},当用户n请求了内容m时rnm(t)=1,否则为0;A收到的其覆盖范围内的总N个用户产生的对M项内容的需求为:R(t)={rnm(t)},其中,n∈{1,...,N},m∈{1,...,M};此时无人机A对内容m的缓存状态为cm(t)∈{0,1},当A存储了内容m时,cm(t)的值为1,否则为0;那么A对总M项内容的存储状态为:C(t)={cm(t)},其中,m∈{1,...,M};考虑到用户需求及自身位置的动态性,无人机A决定使用深度Q网络(DQN)解决动态的内容缓存决策问题;
对内容缓存问题的建立及求解,具体过程为:
S11、无人机A根据服务范围内的用户请求,计算用户n获取请求内容的时延:其中,Rn(t)是与无人机、用户n之间的距离、路径损耗相关的传输速率,R(t)是无人机与宏基站通信的传输速率;无人机A需要在自身存储能力c的约束下,决策缓存动作I(t)={im(t)},m∈{1,...,M},其中,im(t)∈{0,1},当无人机决定存储内容m时,im(t)值为1,否则为0,得以最小化总体用户的内容获取时延:同时,当前的缓存动作I(t)会影响下一时刻的缓存状态C(t+1),即有C(t+1)=I(t);
用户n的传输速率Rn(t)可计算为:其中,Bn为系统分给用户n的带宽,PUAV为无人机发送信号的功率,为根据概率传输模型及用户与无人机之间距离计算而得的平均路损,σ2为噪声功率;
S12、无人机A作为DRL实体,建立状态空间s(t)={C(t)},以及动作空间a(t)={I(t)},即时奖励;对每个时段t,无人机A依据ε-贪心策略,以概率ε随机选择满足存储能力c约束的动作a(t)执行,以1-ε的概率使用神经网络做出动作,之后计算即时奖励r(t),将s(t)转换为下一时段状态s(t+1),以<s(t),a(t),s(t 1),+(r)t>的形式作为交互数据放入缓冲区存储;
S13、无人机A作为DRL实体,循环选择缓冲区中的部分数据<s(t),a(t),s(t+1),r(t)>,将(a(t),s(t))作为输入,r(t)作为输出对神经网络进行更新;循环多次进行上述步骤,直到算法收敛,完成强化学习模型训练,得以求解内容缓存决策问题;
S2、当无人机B到达并服务附近区域sb时,产生与无人机A相似的缓存决策问题,此时通过宏基站向A求助;
S3、无人机A发送部分缓冲区的交互数据给无人机B;
S4、无人机B接受并处理交互数据,放入缓冲区后进行训练步骤,解决对应的缓存决策问题。
2.根据权利要求1所述的基于迁移学习的无人机内容缓存决策方法,其特征在于,步骤S12中无人机A采用ε-贪心策略,在每个时段t,以概率ε随机做出动作,以1-ε的概率使用神经网络做出动作,并且将时延函数作为奖励的计算方式,以状态,动作,奖励,后续状态的形式作为交互数据存储下来。
3.根据权利要求2所述的基于迁移学习的无人机内容缓存决策方法,其特征在于,步骤S4具体包含以下分步骤:
S41、无人机B将来自A的缓冲区交互数据进行处理,使其状态空间、动作空间符合当前问题约束,并重新计算奖励;
S42、无人机B作为DRL实体,首先在缓冲区存储处理过的数据,之后同样依据ε-贪心策略,对每个时段t,以ε概率随机做出动作,以1-ε的概率使用神经网络做出动作,补充缓冲区数据;
S43、无人机B作为DRL实体,循环选择缓冲区中的部分数据更新神经网络,完成强化学习模型训练,进而求解内容缓存决策问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110874224.5/1.html,转载请声明来源钻瓜专利网。