[发明专利]一种面向水下多智能体的Q学习蚁群路由方法有效

申请号：	202010033962.2	申请日：	2020-01-13
公开（公告）号：	CN111065145B	公开（公告）日：	2021-09-21
发明（设计）人：	任勇;王景璟;方政儒	申请（专利权）人：	清华大学
主分类号：	H04W40/10	分类号：	H04W40/10;H04W40/12;H04W40/22;H04W40/24;H04W84/18
代理公司：	北京翔石知识产权代理事务所(普通合伙) 11816	代理人：	李勇
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向水下智能学习路由方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向水下多智能体的Q学习蚁群路由方法，其特征在于：结合强化学习和蚁群算法适应和学习动态水下环境的特征，包括如下步骤：

路由发现阶段：结合蚁群算法中的FANT和BANT探索路径并维护Q值表；当源节点开始向接收节点发送数据包时，释放FANT，FANT在初始阶段随机寻找下一个转发节点，FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表，到达目的地的每个FANT都转化为BANT，每个BANT会沿FANT探索出的路径原路返回源节点；

路由维持阶段：每个节点都需要通过交换环境数据并计算所有动作的Q值来维护Q值表；源节点根据链路信息周期性发送信标帧，以维持建立的数据包转发路径并寻找更好的转发路径；

路由空洞处理机制：当一个节点无法继续通过更新Q值表来选择路由策略时，将进入路由失败处理函数；

所述强化学习的模型可转换为马尔可夫决策过程，强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程，由五元组(S，A，P，R，γ)组成；S是有限状态的集合，A是有限动作的集合，P是状态转移概率函数，R是奖励函数，γ是衰减系数；是在时间t时，执行动作a从状态s转移到s`的概率：

在路由发现和路由维持阶段中，设计奖励函数，并定义奖励函数如下：

其中，是当状态节点采取动作a_t从s_t转移到s_t+1状态时，从环境获得的奖励大小；Agent的奖励包括了直接奖励值R_t和未来奖励；

动作价值函数Q_π(s，a)的定义为策略π的从某一个状态s和动作a开始长期累积的奖励的数学期望大小：

其中γ是在[0，1]范围内的衰减因子，又叫做学习率；γ用来平衡直接奖励和未来奖励的权重；

为了找到最佳路由器路径，当水下传感器节点传输数据包时，Q学习蚁群路由方法的目标是把Q_π(s_t+1，a)的期望值最大化，则定义最佳Q值函数，如下中所示：

2.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法，其特征在于，所述路由发现阶段中，Q值表在路由发现阶段开始时初始化为0，每一个传感器节点初始化时会向邻居节点发送广播信标，广播自身的ID、深度、剩余能量信息，然后接收到的邻居节点会回复ACK给发送方，用来维持邻居节点的集合C_i。

3.根据权利要求1或2所述的面向水下多智能体的Q学习蚁群路由方法，其特征在于，所述路由发现阶段中，当路径上的节点从目的节点接收到BANT时，节点将从数据包中提取出BANT记录的上一跳节点信息，这些信息将用于计算奖励和当前节点的Q值；以此类推，源节点会收到若干BANT，选择其中计算得到Q值最大的BANT所存储的路径作为最优路径；如此反复迭代后，将得到源节点到目的节点的最优路径。

4.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法，其特征在于，还包括建立水声信道模型，水声传播的特点对水深传感器网络有影响，水下声信道的路径损耗可由以下公式表示：

A(l，f)＝A₀l^ka(f)^l

其中，A₀是一个单位归一化常数，k为扩展因子，a(f)为吸收系数。

5.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法，其特征在于，水下环境是一个高噪声环境，需要考虑到四种噪声源：湍流，船舶，波浪和热噪声，使用经验公式替代：

10logN(f)＝N₁-ηlogf

其中N(f)是环境噪声的功率密度谱；不考虑方向增益和损耗，只考虑路径损耗的水下信噪比可以由下面公式给出：

Δf是接收噪声信号带宽，P是传输信号功率，f是传输信号频率。

6.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法，其特征在于，还包括建立水下无线传感器网络拓扑，所述水下无线传感器网络拓扑包括若干传感器节点、AUV、一个以上的平台同时具有水声收发器和RF收发器，所述传感器节点通过声学调制解调器通信，声链路用于与水下传感器节点交换数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010033962.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W40-00 通信路由或通信路径查找
H04W40-02 .通信路由或路径选择，例如，基于功率的或最短路径路由
H04W40-24 .连接性信息管理，例如，连接性发现或连接性更新
H04W40-34 .现有路由的更改
H04W40-36 ..由于切换
H04W40-38 ..由于改变节点之间相对距离的适应

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向水下多智能体的Q学习蚁群路由方法有效

专利文献下载