[发明专利]一种基于深度强化学习的多无人机充电及任务调度方法有效
申请号: | 202110646077.6 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113283013B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 赵东;马华东;曹铭喆;丁立戈 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/27;G06Q10/04;G06Q10/06;G06Q50/06;G06N20/00;G06F111/08 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 高福勇 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无人机 充电 任务 调度 方法 | ||
1.一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,
根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度;
待无人机执行任务后,根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电;
所述调度方法的具体过程为:
步骤一、无人机调度模块根据所有待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度,所述无人机调度模块上载有训练好的深度强化学习模型;
步骤二、待无人机执行任务后,充电站判断所有待执行任务是否完成,如未完成,则充电站根据未执行任务的数量、可调度无人机数量和无人机剩余电量对待充电无人机进行充电,进行步骤三;如已完成,则充电站对其上所有待充电无人机进行充电,调度完成;
步骤三、无人机调度模块根据未执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度,返回步骤二;
所述深度强化学习模型的建立过程为:
深度强化学习模型建模为一个由五元组S,A,P,R,γ表示的马尔可夫决策过程,其中S为状态空间,A为动作空间,P为状态转移矩阵;R为即时奖励函数,γ为折扣因子;
调度策略为π(a|s)=P[at=a|st=s],st表示时隙t时的状态,at表示状态st时对应的动作,P[at=a|st=s]表示在状态s时选择动作a的概率;
根据π能够得到动作at的长期收益Ut,其中rt+m表示时隙t+m时采取动作at+m的即时奖励,m=t、t+1、…、T,T表示最后一个时隙;
在状态st时根据π采取动作at的最大长期收益为
Q(st,at)=maxπEπ[Ut|st,at]
其中,Eπ[Ut|st,at]表示在状态st时根据策略π采取动作at的长期收益;
根据Q(st,at),得到在状态st下的具有最大长期收益的动作
其中,Q(st,a)为在状态st时选择动作a的预期未来获得的累计奖励的大小;
得到则基础建模完成,在得到后无人机调度模块对基础建模进行进一步优化,得到最终的建模模型,所述无人机调度模块对基础建模进行进一步优化具体包括如下步骤:
设定动作有效性因子G(at)表示动作at是否满足能量约束的要求,其取值定义如下:
根据G(at)和得到引入动作有效因子G(at)的最优策略为:
然后对马尔可夫决策过程的状态S、动作A和奖励R进行具体的设计,所述马尔可夫决策过程的状态空间S为:设充电站集合C={c1,c2,...,cJ},任务集合D={d1,d2,...,dK},无人机群U={u1,u2,...,uI},ui表示无人机群中第i个无人机,各无人机可进行调度的时刻T'=[t1,t2,…,tI],ti表示无人机ui的可调度时间;在无人机ui的可调度时间ti,ui的状态表示各任务的位置和完成状态、除无人机ui外其他无人机的位置和剩余电量、充电站位置和停靠的无人机数量;表示无人机ui的位置和剩余电量、无人机ui与各个任务的相对距离、无人机ui与各个充电站的相对距离;
所述马尔可夫决策过程的动作A为:动作描述无人机可以去哪里执行任务或者充电,A={c1,c2,...,cJ,d1,d2,...,dK};
所述马尔可夫决策过程的奖励R为:在状态采取动作a后并转移到下一个状态,无人机ui获得一个即时奖励
当动作a是一个任务时,x=1,y=0,否则x=0,y=1;β表示当动作a使得无人机电量耗尽时的惩罚,是无人机ui与各个任务的相对距离,即无人机ui与相距最近任务之间的距离,是无人机ui与动作a对应的任务之间的距离,是无人机ui与各个充电站的相对距离,即无人机ui与相距最远充电站之间的距离,是无人机ui与动作a对应的充电站之间的距离,是各个充电站停靠的无人机数量,即各个充电站所停靠无人机数量中的最大值,是停靠在动作a对应的充电站的无人机的数量;
以训练好的作为深度强化学习模型对无人机进行调度,具体为:所述无人机调度模块根据任务、无人机群U的可调度时刻T',通过训练好的按照时序规划无人机的访问任务点的动作和返回充电站的动作,直到完成所有任务;
所述充电站对待充电无人机进行充电的具体方法为:当剩余任务数量小于可调度无人机数量时,充电站为待充电的可调度无人机充满电,且充电站对待充电的无人机中剩余电量最多的无人机优先进行充电;当剩余任务数量大于等于可调度无人机数量时,充电站为待充电的无人机充电到其足够完成最近的任务并返航的电量,且充电站对待充电的无人机中剩余电量最多的无人机优先进行充电;
当剩余任务数量大于等于可调度的无人机数量时,所述充电站为待充电的无人机充电的充电电量e为
其中,v为当前待充电的无人机的飞行速度,P'为当前待充电的无人机的飞行功率,e(dn)为当前待充电的无人机完成相距最近任务dn的能耗,ei为当前无人机ui的剩余电量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646077.6/1.html,转载请声明来源钻瓜专利网。