[发明专利]一种基于深度强化学习的无人机任务匹配与计算迁移方法有效
申请号: | 201910219219.3 | 申请日: | 2019-03-21 |
公开(公告)号: | CN109884897B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 陈武辉;董嘉俐;郑子彬 | 申请(专利权)人: | 中山大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于深度强化学习的无人机任务匹配与计算迁移方法,步骤包括对问题采用参数化描述,包括任务参数、无人机当前状态参数、每个任务做出动作参数,利用参数建立本问题目标函数的数学模型,采用Actor‑Critic深度强化训练学习求解系统花费最小的最优动作。本发明全局性地考虑无人机的任务匹配和计算迁移这两个动作,在系统总花费最小的权衡下解决问题得到最优动作的决策。 | ||
搜索关键词: | 一种 基于 深度 强化 学习 无人机 任务 匹配 计算 迁移 方法 | ||
【主权项】:
1.一种基于深度强化学习的无人机任务匹配与计算迁移方法,其特征在于,包括如下步骤:S10将时间离散为等长的时间间隔,假设在每个时间间隔初始时间有n个任务,把n个任务分配到m台无人机执行并决定是否将任务的计算部分迁移到云服务器上;定义每个任务状态为[xt,yt,J,B]、无人机当前状态为[xd,yd,Qs,Qc],其中xt表示任务的目的地横坐标,yt表示任务的目的地纵坐标,J表示计算任务所需的CPU转数,B表示采集任务采集的数据集大小,xd表示无人机当前所在的横坐标,yd表示无人机当前所在的纵坐标,Qs表示无人机的采集任务队列,Qc表示计算任务队列;定义m为被分配到任务的无人机编号,o为是否要将计算任务迁移到云服务器上,o={0,1},o取0,表示计算任务在无人机上运行,o取1时表示计算任务被迁移到云服务器上;状态S为当前的所有任务状态和所有无人机状态,n表示任务数,k表示无人机数,假设系统的总花费=时间花费+资金花费,问题的目标函数为:Ctotal表示系统的总花费,Ctime表示系统的时间花费,由飞到目的地的时间、执行采集任务的时间和执行计算任务的时间三者相加得到,mj表示任务j匹配的无人机编号,oj表示是否将任务j的计算子任务迁移到云服务器上,表示任务j到无人机mj的距离,表示无人机mj的飞行速度,表示无人机mj的采集速率,表示无人机mj的计算速率,fcloud表示云服务器的计算速率,表示执行采集任务的时间,其中:Cpayment表示系统的资金花费,由飞行距离收费、采集任务收费和计算任务收费这三部分收费相加得到,表示无人机mj的单位采集收费,表示无人机mj的单位移动收费,pc表示无人机mj的单位电能收费,σ表示每CPU转所消耗的电能,pcloud表示云服务器单位电能的收费,其中:S20采用Actor‑Critic深度强化学习算法求解系统总花费Ctotal最小的动作a:输入状态S至Actor网络训练学习后输出系统花费最小的动作a,其中a=[[m1,o1],...,[mn,on]];设置环境智能体,状态S和动作a通过环境智能的设置得到动作a的反馈R和状态S采取动作a之后的下一个状态S',其中R=‑Ctotal;输入状态S至Critic网络,输出状态S的状态价值v(S),输入下一个状态S',输出下一个状态S'的状态价值v(S'),其中γ表示衰减因子,A表示状态S所能采取的所有动作集合,π(a|S)表示在状态S下采取动作a的概率值,t为迭代次数,;因为状态价值v(S)等于反馈加上衰减的下一状态值的期望,则状态价值理解为的均值,定义两个状态价值的单步误差为δ=R+γv(S')‑v(S),单步误差越大,表明当前状态下的动作a越好,基于单步误差分别对Actor网络和Critic网络的参数更新迭代,得到系统总花费Ctotal最小的动作a。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910219219.3/,转载请声明来源钻瓜专利网。