[发明专利]一种面向水下多智能体的Q学习蚁群路由方法有效
申请号: | 202010033962.2 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111065145B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 任勇;王景璟;方政儒 | 申请(专利权)人: | 清华大学 |
主分类号: | H04W40/10 | 分类号: | H04W40/10;H04W40/12;H04W40/22;H04W40/24;H04W84/18 |
代理公司: | 北京翔石知识产权代理事务所(普通合伙) 11816 | 代理人: | 李勇 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 水下 智能 学习 路由 方法 | ||
1.一种面向水下多智能体的Q学习蚁群路由方法,其特征在于:结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:
路由发现阶段:结合蚁群算法中的FANT和BANT探索路径并维护Q值表;当源节点开始向接收节点发送数据包时,释放FANT,FANT在初始阶段随机寻找下一个转发节点,FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表,到达目的地的每个FANT都转化为BANT,每个BANT会沿FANT探索出的路径原路返回源节点;
路由维持阶段:每个节点都需要通过交换环境数据并计算所有动作的Q值来维护Q值表;源节点根据链路信息周期性发送信标帧,以维持建立的数据包转发路径并寻找更好的转发路径;
路由空洞处理机制:当一个节点无法继续通过更新Q值表来选择路由策略时,将进入路由失败处理函数;
所述强化学习的模型可转换为马尔可夫决策过程,强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,R,γ)组成;S是有限状态的集合,A是有限动作的集合,P是状态转移概率函数,R是奖励函数,γ是衰减系数;是在时间t时,执行动作a从状态s转移到s`的概率:
在路由发现和路由维持阶段中,设计奖励函数,并定义奖励函数如下:
其中,是当状态节点采取动作at从st转移到st+1状态时,从环境获得的奖励大小;Agent的奖励包括了直接奖励值Rt和未来奖励;
动作价值函数Qπ(s,a)的定义为策略π的从某一个状态s和动作a开始长期累积的奖励的数学期望大小:
其中γ是在[0,1]范围内的衰减因子,又叫做学习率;γ用来平衡直接奖励和未来奖励的权重;
为了找到最佳路由器路径,当水下传感器节点传输数据包时,Q学习蚁群路由方法的目标是把Qπ(st+1,a)的期望值最大化,则定义最佳Q值函数,如下中所示:
2.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述路由发现阶段中,Q值表在路由发现阶段开始时初始化为0,每一个传感器节点初始化时会向邻居节点发送广播信标,广播自身的ID、深度、剩余能量信息,然后接收到的邻居节点会回复ACK给发送方,用来维持邻居节点的集合Ci。
3.根据权利要求1或2所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述路由发现阶段中,当路径上的节点从目的节点接收到BANT时,节点将从数据包中提取出BANT记录的上一跳节点信息,这些信息将用于计算奖励和当前节点的Q值;以此类推,源节点会收到若干BANT,选择其中计算得到Q值最大的BANT所存储的路径作为最优路径;如此反复迭代后,将得到源节点到目的节点的最优路径。
4.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,还包括建立水声信道模型,水声传播的特点对水深传感器网络有影响,水下声信道的路径损耗可由以下公式表示:
A(l,f)=A0lka(f)l
其中,A0是一个单位归一化常数,k为扩展因子,a(f)为吸收系数。
5.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,水下环境是一个高噪声环境,需要考虑到四种噪声源:湍流,船舶,波浪和热噪声,使用经验公式替代:
10logN(f)=N1-ηlogf
其中N(f)是环境噪声的功率密度谱;不考虑方向增益和损耗,只考虑路径损耗的水下信噪比可以由下面公式给出:
Δf是接收噪声信号带宽,P是传输信号功率,f是传输信号频率。
6.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,还包括建立水下无线传感器网络拓扑,所述水下无线传感器网络拓扑包括若干传感器节点、AUV、一个以上的平台同时具有水声收发器和RF收发器,所述传感器节点通过声学调制解调器通信,声链路用于与水下传感器节点交换数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010033962.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空瓶智能选别回收装置及方法
- 下一篇:一种治疗胸痹的中药组分配方