[发明专利]一种基于深度强化学习的多无人机充电及任务调度方法有效

申请号：	202110646077.6	申请日：	2021-06-10
公开（公告）号：	CN113283013B	公开（公告）日：	2022-07-19
发明（设计）人：	赵东;马华东;曹铭喆;丁立戈	申请（专利权）人：	北京邮电大学
主分类号：	G06F30/15	分类号：	G06F30/15;G06F30/27;G06Q10/04;G06Q10/06;G06Q50/06;G06N20/00;G06F111/08
代理公司：	北京挺立专利事务所(普通合伙) 11265	代理人：	高福勇
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习无人机充电任务调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，

根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度；

待无人机执行任务后，根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电；

所述调度方法的具体过程为：

步骤一、无人机调度模块根据所有待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度，所述无人机调度模块上载有训练好的深度强化学习模型；

步骤二、待无人机执行任务后，充电站判断所有待执行任务是否完成，如未完成，则充电站根据未执行任务的数量、可调度无人机数量和无人机剩余电量对待充电无人机进行充电，进行步骤三；如已完成，则充电站对其上所有待充电无人机进行充电，调度完成；

步骤三、无人机调度模块根据未执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度，返回步骤二；

所述深度强化学习模型的建立过程为：

深度强化学习模型建模为一个由五元组S,A,P,R,γ表示的马尔可夫决策过程，其中S为状态空间，A为动作空间，P为状态转移矩阵；R为即时奖励函数，γ为折扣因子；

调度策略为π(a|s)＝P[a_t＝a|s_t＝s]，s_t表示时隙t时的状态，a_t表示状态s_t时对应的动作，P[a_t＝a|s_t＝s]表示在状态s时选择动作a的概率；

根据π能够得到动作a_t的长期收益U_t，其中r_t+m表示时隙t+m时采取动作a_t+m的即时奖励，m＝t、t+1、…、T，T表示最后一个时隙；

在状态s_t时根据π采取动作a_t的最大长期收益为

Q(s_t,a_t)＝max_πE_π[U_t|s_t,a_t]

其中，E_π[U_t|s_t,a_t]表示在状态s_t时根据策略π采取动作a_t的长期收益；

根据Q(s_t,a_t)，得到在状态s_t下的具有最大长期收益的动作

其中，Q(s_t,a)为在状态s_t时选择动作a的预期未来获得的累计奖励的大小；

得到则基础建模完成，在得到后无人机调度模块对基础建模进行进一步优化，得到最终的建模模型，所述无人机调度模块对基础建模进行进一步优化具体包括如下步骤：

设定动作有效性因子G(a_t)表示动作a_t是否满足能量约束的要求，其取值定义如下：

根据G(a_t)和得到引入动作有效因子G(a_t)的最优策略为：

然后对马尔可夫决策过程的状态S、动作A和奖励R进行具体的设计，所述马尔可夫决策过程的状态空间S为：设充电站集合C＝{c₁，c₂，...，c_J}，任务集合D＝{d₁，d₂，...，d_K}，无人机群U＝{u₁，u₂，...，u_I}，u_i表示无人机群中第i个无人机，各无人机可进行调度的时刻T'＝[t₁,t₂,…,t_I]，t_i表示无人机u_i的可调度时间；在无人机u_i的可调度时间t_i，u_i的状态表示各任务的位置和完成状态、除无人机u_i外其他无人机的位置和剩余电量、充电站位置和停靠的无人机数量；表示无人机u_i的位置和剩余电量、无人机u_i与各个任务的相对距离、无人机u_i与各个充电站的相对距离；

所述马尔可夫决策过程的动作A为：动作描述无人机可以去哪里执行任务或者充电，A＝{c₁，c₂，...，c_J，d₁，d₂，...，d_K}；

所述马尔可夫决策过程的奖励R为：在状态采取动作a后并转移到下一个状态，无人机u_i获得一个即时奖励

当动作a是一个任务时，x＝1，y＝0，否则x＝0，y＝1；β表示当动作a使得无人机电量耗尽时的惩罚，是无人机u_i与各个任务的相对距离，即无人机u_i与相距最近任务之间的距离，是无人机u_i与动作a对应的任务之间的距离，是无人机u_i与各个充电站的相对距离，即无人机u_i与相距最远充电站之间的距离，是无人机u_i与动作a对应的充电站之间的距离，是各个充电站停靠的无人机数量，即各个充电站所停靠无人机数量中的最大值，是停靠在动作a对应的充电站的无人机的数量；

以训练好的作为深度强化学习模型对无人机进行调度，具体为：所述无人机调度模块根据任务、无人机群U的可调度时刻T'，通过训练好的按照时序规划无人机的访问任务点的动作和返回充电站的动作，直到完成所有任务；

所述充电站对待充电无人机进行充电的具体方法为：当剩余任务数量小于可调度无人机数量时，充电站为待充电的可调度无人机充满电，且充电站对待充电的无人机中剩余电量最多的无人机优先进行充电；当剩余任务数量大于等于可调度无人机数量时，充电站为待充电的无人机充电到其足够完成最近的任务并返航的电量，且充电站对待充电的无人机中剩余电量最多的无人机优先进行充电；

当剩余任务数量大于等于可调度的无人机数量时，所述充电站为待充电的无人机充电的充电电量e为

其中，v为当前待充电的无人机的飞行速度，P'为当前待充电的无人机的飞行功率，e(d_n)为当前待充电的无人机完成相距最近任务d_n的能耗，e_i为当前无人机u_i的剩余电量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110646077.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于滤芯接口焊接机的滤芯抓取定位机构
下一篇：一种基于路网的城市交通事故风险预测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的多无人机充电及任务调度方法有效

专利文献下载