[发明专利]基于自适应边界的分布式强化学习稳定拓扑生成方法有效
申请号: | 201910968053.5 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110753384B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 黄庆东;石斌宇;杜昭强 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | H04W40/24 | 分类号: | H04W40/24;H04W52/02;H04W84/18 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞 |
地址: | 710061 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 边界 分布式 强化 学习 稳定 拓扑 生成 方法 | ||
1.一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于:包括有以下步骤:
步骤1动态拓扑构建:在一块区域内布置N个节点,各节点根据移动自组织网络MANET中随机游走移动模型的方式在区域内进行随机移动,形成MANET的动态拓扑结构,定义每个节点都存在一个自适应强化学习的区间[b,a];
步骤2划分自适应强化学习区间及Q值表初始化:在构建的MANET中,各节点初始化,设各节点的初始归一化发射功率为0dBm,节点与其邻居节点间的稳定拓扑联接临界归一化强度值为dwindBm,初始设置各节点学习区间[b,a]中上界a与下界b的值都等于dwindBm;节点接收到邻居节点的接收信号强度值RSSI,按接收信号强度值划分的三个区间(-∞,b)、[b,a]、(a,0]分别进行拓扑联接稳定性处理;区间[b,a]为Q-learning强化学习方法的拓扑稳定性学习区间,简称为自适应区间,在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测;区间(-∞,b)、(a,0]内进行状态的直接决策,简称直接决策区间,即节点直接判断其与邻居节点的拓扑联接稳定性;随着Q-learning方法的执行,自适应区间[b,a]的边界值会自适应更新,进行自适应区间扩展;网络中每个节点会初始化建立一个Q值表,表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值;设置状态集S={s1,s2},状态s1为当前节点与某邻居节点处于稳定联接状态,状态s2为当前节点与某邻居节点处于非稳定联接状态;设置动作集A={a1,a2},动作a1为预判稳定状态,动作a2为预判非稳定状态;节点根据与各个邻居节点所处的联接状态si以及所采用策略π(si,aj)选择动作aj,i状态序号取值为1、2,j为动作序号1、2;针对节点与邻居节点在t时刻对应元素Q值表中的Qt(si,aj)进行强化学习更新,得到下一时刻Q值表中Qt+1(si,aj),其中si∈S,aj∈A;在自适应区间内,节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习;
步骤3当前节点根据RSSI进行分区间处理:当前节点接收到邻居节点的接收信号强度值RSSI进行分区间处理,当RSSI值落入区间[b,a]则执行步骤4,进行自适应强化学习及状态预测;否则,执行步骤5,进行直接决策区间状态判断;
步骤4自适应区间内强化学习与联接状态稳定性判断:在MANET中,节点接收到某邻居节点的RSSI值处于区间[b,a]内时,该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测,并利用自适应奖励函数对Q值表进行更新,更新后得到下一传输时刻节点与其邻居节点的稳定联接状态预测选择;执行步骤7;
步骤5直接决策区间状态判断:节点接收到邻居节点的RSSI值处于区间(a,0]内,直接判决该邻居节点的联接状态为稳定联接状态s1,之后执行步骤6;节点接收到邻居节点的RSSI值处于区间(-∞,b)内,直接判决该邻居节点的联接状态为非稳定联接状态s2,之后执行步骤6;
步骤6对自适应区间边界进行自适应更新:直接决策区间的边界a和边界b同时也为自适应区间的上界a和下界b,将稳定联接临界归一化强度值dwin作为判定阈值,如果当前时刻节点接收到某邻居节点的RSSI,邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s1;邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s2;当RSSI值处于直接决策区间时,根据如下状态判断公式进行判断:
式中:s为当前节点与邻居节点的联接变量状态;将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测,具体表示为假设下一传输时刻当前节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接变量状态为s′;根据自适应区间边界的自适应更新公式对自适应区间上界a或自适应区间下界b进行更新;
步骤7生成分布式自适应的稳定联接拓扑:针对不同时刻,各个节点重复执行步骤3~步骤6,遍历所有节点,根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新,得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系,实现分布式自适应的稳定联接拓扑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910968053.5/1.html,转载请声明来源钻瓜专利网。