[发明专利]基于深度强化学习的优先级无人机编队动态信道分配方法及其系统在审
申请号: | 202010397272.5 | 申请日: | 2020-05-12 |
公开(公告)号: | CN113657016A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 林云;王美玉;周翔龙;窦峥;涂涯 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08;H04B7/185;H04L29/08 |
代理公司: | 北京信慧永光知识产权代理有限责任公司 11290 | 代理人: | 房岭梅;姚鹏 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 优先级 无人机 编队 动态 信道 分配 方法 及其 系统 | ||
1.一种基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述分配方法包括:
S101:对无人机编队信道的动态分配过程建立模型,并在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,所述无人机的业务具有优先级;
S102:将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;
S103:利用所述模型对所述改进型深度强化学习网络模型进行训练;以及
S104:利用训练后的所述改进型深度强化学习网络模型对无人机编队动态分配信道。
2.根据权利要求1所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述环境状态包括与信道相关的信息,所述动作集合包括无人机的动作,通过切换所述动作集合中的无人机的动作获得所述环境状态的反馈以及奖赏值,所述优先级设置成与通信频率正相关。
3.根据权利要求2所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述环境状态用于评价无人机在做出动作之后对环境状态所造成的影响,并且,所述环境状态包括信道的容量、无人机通信之间的碰撞情况以及无人机之间对信道的利用率。
4.根据权利要求3所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述动作集合包括无人机要接入信道以及无人机不接入信道。
5.根据权利要求4所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,包括如下步骤:
定义所述环境状态为St={s1,s2,……,sn};
定义所述动作集合为A={a1,a2,……,an},其中,ai∈{0,……,C};
定义所述奖赏函数为
其中,ai表示的是第i个无人机的动作,C表示信道的数目;ai=0,表示这架无人机不接入信道;TPER表示总丢包率,所述奖赏函数与所述总丢包率负相关,所述总丢包率通过所述环境状态的无人机通信之间的碰撞情况以及无人机通信频率获得。
6.根据权利要求5所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型,包括如下步骤:
S201:将所述环境状态St输入到深度Q网络(DQN)中,输出动作at和奖励值rt以及下一环境状态St+1;
S202:将从深度Q网络(DQN)中获得的(st,at,rt,st+1)输入到长短时记忆网路(LSTM)中,通过长短时记忆网路(LSTM)对(st,at,rt,st+1)进行存储和处理;
S203:将经过长短时记忆网路(LSTM)存储和处理的(st,at,rt,st+1)存入深度Q网络(DQN);以及
S204:深度Q网络(DQN)从经过长短时记忆网路(LSTM)存储和处理的(st,at,rt,st+1)中选取样本,输出最优策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010397272.5/1.html,转载请声明来源钻瓜专利网。