[发明专利]一种基于差异化服务的无人机资源动态部署方法有效
申请号: | 202110625142.7 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113242556B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 王小洁;宁兆龙;郭磊;高新波 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04W16/10 | 分类号: | H04W16/10;H04W16/18;H04W16/22;H04W72/04;G06N20/00;H04L41/142;H04L41/14 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 异化 服务 无人机 资源 动态 部署 方法 | ||
1.一种基于差异化服务的无人机资源动态部署方法,其特征在于,包括以下步骤:
1)构建动态需求模型,确定用户及无人机所有者的效用;
2)构建马尔科夫博弈模型,将步骤1)中的收益最大化问题转化为马尔科夫优化问题;
3)在完全信息状态下,构建专家策略,使得性能达离线最优;
4)在局部信息状态下,基于步骤3)获得的离线专家策略集,构建智能体在线学习策略;
所述步骤1)构建动态需求模型,确定用户及无人机所有者的效用,具体包括:
动态需求模型包含H个热点区域,以及K个无人机所有者,在每个时隙t中,用户i以概率生成服务请求Λhi(t)并定义为其中dhi(t)表示所需服务能力,ιhik(t)∈[0,1]表示在热点区域h中的用户i对服务k的偏好程度;
位于热点区域h的用户i购买服务的预算用ehi表示,热点区域h的总用户数用mh(t)表示,那么热点区域h的用户总预算为用户对服务k的聚合偏好为:
热点区域h在时隙t内对服务k的总需求表示为:那么热点区域h内的聚合用户效用可通过以下公式计算:
其中0<α<1表示不同服务的可替代程度,变量qhk(t)为无人机所有者可以在时隙t内为热点区域h提供的服务总量,在缓存应用中qhk(t)代表可提供的传输速率,系统用户总收益用以下公式计算:
无人机所有者的服务开销包含两部分:维护成本和能耗成本,其中单位维护成本用g0表示,单位动力能耗成本用gs表示,单位服务能耗用gc表示,无人机所有者k在时隙t内的能耗成本通过以下公式计算:
表达式表示所需的无人机数量,其中bk表示单个无人机的服务容量,无人机所有者k在时隙t内的收益通过以下公式计算:
Γhk(t)=pk(t)qhk(t)-chk(t),
其中pk(t)是服务k在时隙t内的价格;
基于以上用户聚合效用和无人机所有者收益的定义,优化目标一为最大化用户总效用,问题描述如下:
P1:
上述约束条件确保热点区域h在时隙t内的用户总开销不超过总预算;
目标二是最大化无人机所有者的长期收益,问题描述如下:
P2:
所述步骤2)构建马尔科夫博弈模型,将步骤1)中的收益最大化问题转化为马尔科夫优化问题,具体包括:
步骤1中定义的无人机所有者收益最大化问题转化为马尔科夫博弈问题,该博弈可以用元组K,S,O,A,P,R,γ表示,各元素的含义如下:
状态S:代表所建立的马尔科夫博弈模型状态信息,表示为其中,S1表示用户的状态,包括用户产生的服务需求、服务偏好以及预算;S2表示无人机所有者的状态,包括单位成本开销、服务容量以及服务可替代度;S3表示所提供服务的状态,包括过去所提供服务的数量和价格;
观测状态O:系统中的无人机所有者不能观测到系统状态S,仅可观测部分信息并表示为其中是无人机所有者k的观测状态,包括用户的预算、无人机所有者单位成本开销、服务容量以及服务可替代度、以及过去所提供服务的数量和价格;
动作A:无人机所有者的动作集合表示为其中Δqhk(t)是和上一时隙相比所需额外提供的服务数量;
状态转移概率P:表示为P:S×A×S→[0,1],基于概率P(st+1|st,at)和动作at,系统状态从st跳转到st+1;
奖励函数R:可表示为S×A→R,代表时隙t内智能体k执行动作后获得的瞬时奖励;瞬时奖励可通过如下公式计算:这样无人机所有者的目标函数转换最大化累计瞬时奖励
所述步骤3:在完全信息状态下,构建专家策略,使得性能达离线最优,具体包括:
在完全信息状态下,对优化问题P1和P2进行转换,得到服务数量和价格的关系:
优化问题P1和P2转化为仅与未知变量qhk(t)的函数,同时验证P1和P2的最优解一致,专家策略通过以下步骤获得:
1)K个专家根据当前系统状态并通过求解以下方程获取最优服务数量qhk(t):
其中Ak=(go+gs+gcbk)/bk,变量bk为单个无人机的服务资源容量,变量qh,-k为服务k以外的其它服务在热点区域k提供的服务数量;变量Qk=fhk(t)[qhk(t)]α,且
2)对每个时隙K个专家所执行的动作、系统状态、可观察状态及奖励进行记录,形成数据集合;
所述步骤4:在局部信息状态下,基于步骤3)获得的离线专家策略集,构建智能体在线学习策略,具体包括:
首先在部分观测状态下,每个智能体需要对对手策略进行预测,基于占用率度量匹配策略可建立智能体K的策略πk和对手策略π-k之间的关系,表示为:
其中o表示观测状态,采用生成对抗网络训练智能体策略,优化问题可转化为如下形式:
P3:
其中表示基于智能体策略πk和π-k的期望,Dk表示生成对抗网络的输出;只需要找到鞍点(πk,Dk)即可求解此问题;
其次,为求解鞍点(πk,Dk),对智能体策略模型进行训练。
2.根据权利要求1所述的一种基于差异化服务的无人机资源动态部署方法,其特征在于,为了满足用户需求,由同一无人机所有者管辖的无人机形成一个mesh网络盘旋于热点位置h的上空,该mesh网络中各节点可相互通信并自适应地进行负载均衡,且不同无人机所有者管辖的无人机不相互通信;用户只需要将服务需求上传到其偏好类型且离其最近的无人机。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110625142.7/1.html,转载请声明来源钻瓜专利网。