[发明专利]一种基于自适应调整策略的无人机CSMA接入方法有效
申请号: | 201911337708.5 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111050413B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 张庭辉;秦爽;冯钢 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04W74/08 | 分类号: | H04W74/08;H04B7/185;G06N20/00 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 熊曦 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 调整 策略 无人机 csma 接入 方法 | ||
1.一种基于自适应调整策略的无人机CSMA接入方法,所述方法应用于无人机自组织网络场景下无人机接入无线信道,其特征在于,所述方法包括:
步骤1:在发送无人机与接收无人机建立通信连接前,无人机agent对自身的接入状态及接入策略进行初始化;
步骤2:当无人机有数据包要传输时,侦听无人机自组织网络中各信道的忙闲情况;
步骤3:基于各信道的忙闲情况判断信道是否可用,在可用信道中选取一条接入成功率最高的信道;
步骤4:无人机根据随机策略分布采样当下的接入策略并执行接入无线信道;
步骤5:无人机执行接入策略后获得传输反馈,得到相应的策略回报,同时接入状态发生转移;
步骤6:无人机根据状态转移与获得的即时回报进行接入策略的更新;
返回步骤2经过一段时间的迭代学习,各无人机agent学习到最适应于当前无人机自组织网络环境的接入策略;
步骤1中单个无人机的接入状态包含当前信道的侦听结果与以往信道的接入经验,考虑T时隙范围内N个无人机共享M个可用信道,各无人机根据动态CSMA协议竞争获取信道,以第n个无人机为例,其在t时隙侦听到第m个信道的情况用来表征,0表示信道空闲,1表示信道忙;对于过往的信道接入经验,每个节点维持一个大小为TΔ的经验窗口以记录过去的传输情况,每个时隙结束时更新,第n个无人机t时隙对第m个信道维持的经验窗口表征为单个无人机可初始化状态向量:
并且针对每条信道提取出初始的状态特征向量其中,表征空闲信道的个数,φ2与φ3分别表示连续碰撞次数与信道的连续置闲数,可根据经验窗口计数得出;对于每个无人机来说,每个接入状态s会有一个评判值V(s),大小与该状态的特征向量有关,可将这一状态值函数V(s)用参数θ进行线性近似:Vθ(s)=θTφ(s),对参数θ进行初始化;接入策略为CSMA-persistent协议中的闲时接入概率将其参数化为接入状态特征向量的线性函数ξTφ(st),对参数ξ进行初始化;
步骤2包括:第n个无人机在t时隙侦听到第m个信道的情况为侦听结束后,节点n可以获得可用信道的集合,记为该集合若为空则证明无信道空闲,则节点推迟传输;否则,执行下一步;
步骤3包括:无人机agent根据参数化的策略ξTφ(st)计算每条可用信道当前最优的概率策略选择一条接入概率最大的信道
步骤4中根据高斯分布进行接入策略采样,选取当下的闲时接入概率为用来表征是无人机在某个状态下采取的动作,具体是根据高斯分布N(μ(st),σ)进行动作选择,其中μ是高斯分布的均值,σ是标准差;μ(st)=ξTφ(st)是在状态st下最有可能被选中的动作,σ表征了在状态st下探索所有动作的遍历程度;无人机根据persistent-CSMA协议以概率接入信道传输数据,以概率推迟接入传输;
步骤6中策略的更新是在强化学习中的Actor-Critic框架下以策略梯度法来进行的,在此框架下,每个无人机根据Actor的当前策略πξ选择一个动作,然后在与其他无人机采取的联合动作下,从一个接入状态转移到另一个接入状态,并获地相应的即时回报;Critic将对转移到的状态进行状态值函数估计,来评判该状态的价值,使用TD误差δt来判断当前采取的动作是否对长期的优化目标起到了改善作用;然后Actor根据Critic给出的评判采用策略梯度法调整下次的接入策略:其中αactor是策略迭代的学习率,表示当前状态,表示状态下采取的动作。
2.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法,其特征在于,所述步骤5包括:无人机执行接入策略后,或是传输成功或是接入冲突或是接入延迟,得到相应的结果反馈,并得到即时回报同时无人机的接入状态发生变化,转移到新的接入状态后更新状态特征向量
3.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法,其特征在于,计算TD误差的方式为:其中γ∈[0,1)是折扣因子。
4.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法,其特征在于,策略迭代方式为:
其中,U(πξ)表示状态-行为轨迹累积回报的期望值,也是无人机接入决策所要最大化的优化目标,ξold表示原本的策略参数,ξnew表示更新后的策略参数,αactor是策略迭代的学习率,表示当前状态,表示状态下采取的动作,δt表示TD误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911337708.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:轻钢建筑的桁架连接结构
- 下一篇:一种用于多种废水的絮凝剂及其制备方法和应用