[发明专利]一种基于强化学习的认知无人机频谱感知方法有效
申请号: | 202210384112.6 | 申请日: | 2022-04-13 |
公开(公告)号: | CN114884595B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 李轩衡;张怡冉;吕志远;周炜淋 | 申请(专利权)人: | 大连理工大学 |
主分类号: | H04B17/382 | 分类号: | H04B17/382;H04B7/185 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 隋秀文 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 认知 无人机 频谱 感知 方法 | ||
1.一种基于强化学习的认知无人机频谱感知方法,其特征在于,步骤如下:
(1)定义状态集、动作集和奖励函数
定义1:将状态定义为s={s1,s2,…,sN,x},表示无人机当前所在位置,在第i个位置时,对应si=1,sj=0,i≠j,x表示在当前位置所感知到的空闲频带数目;
定义2:将动作定义为a={a1,a2,…,aN},表示无人机下一个要去往的位置,要去第i个位置时,对应ai=1,aj=0,i≠j;
定义3:由于无人机电池供电有限,飞行和感知的过程都需要消耗能量,所以每隔一定时间无人机需要回到基站进行充电;在本方法中,无人机每执行完H次动作都会回到基站一次,每H次动作叫做一个执行周期,总执行周期为T,无人机当前所在周期为t,1≤t≤T,无人机在当前周期当前时刻的动作次数为h,0≤h≤H;
定义4:将B定义为无人机能感知的范围内客观存在的空闲频带数量;由于虚警概率和漏警概率的存在,客观存在的空闲频带数量和无人机实际感知到的空闲频带数量之间存在差别,它们的关系表示为:其中为无人机感知的总频带数量,pd为漏警概率,pf为虚警概率;
定义5:将奖励函数定义为R=B*(1+f),f为公平性因子,其表达式为其中k为无人机感知位置标号,取值为1~N,φ(k)为本周期内截至目前无人机飞到第k个感知点进行频谱感知的次数;
(2)基于步骤(1)中定义的状态集、动作集和奖励函数,无人机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价,亦称为Q值,随着算法逐渐收敛,Q值将指导无人机在动态环境下选择最优动作:
(2.1)为了记录所有“状态-动作”的Q值,建立二维Q表,横纵坐标分别设为状态s和动作a并将所有值初始化为0;
(2.2)无人机根据当前状态,遵循如下方式选择飞行动作:以1-ε概率选择Q表对应状态s下的所有动作中Q值最大的动作,即A表示所有动作对应的动作空间集合,以概率ε随机选择动作;其中,ε为贪婪系数,ε越大,意味着对环境探索的概率越大;执行完动作后,无人机在当前位置以扫频的方式感知周围的空闲频带数,得到定义1中的x;无人机在这一执行周期内当前时刻的动作次数h加1,若总次数达到H,则进入下一周期,将t加1,并将h初始化为0;
(2.3)动作结束后,基于定义5计算其在对应状态下执行该动作的奖励值,并得到该动作结束时的状态s';
(2.4)根据奖励值更新Q表中对应的“状态-动作”Q值,对于每一个状态s下做出动作a的Q值更新公式如下:
其中,α为学习率,范围是0~1,它表示得到的奖励对Q值更新的影响程度,较小时表示得到的奖励对Q值更新影响较小,即学到信息较少;η为折扣因子,范围是0~1,它表示预期奖励对奖励的影响程度,较小即接近0时表现为重视短期奖励,较大即接近1时表现为重视预期奖励;
(2.5)更新状态,令s=s';
(2.6)重复(2.2)-(2.5),直至无人机进行完T个执行周期。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210384112.6/1.html,转载请声明来源钻瓜专利网。