[发明专利]一种基于增强学习的无线体域网路由方法有效
申请号: | 201410176028.0 | 申请日: | 2014-04-28 |
公开(公告)号: | CN103974366B | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 陈志;宝磊;王东;岳文静;朱彦沛;高阳阳;高显强 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04W40/02 | 分类号: | H04W40/02;H04W84/18 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 叶连生 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于增强学习的无线体域网自组织路由方法,该方法将人体节点看成是智能化节点,将整个无线体域网构成类似多智能化节点的系统,在实施中综合考虑节点跳数、位置、人体节点的剩余能量、节点通信损耗能量,采用Q学习算法建立或更新Q值表,寻找最优路径。本发明能够在保证数据顺利传输的基础上,防止无线体域网部分节点过早死亡,均衡了网络能量,提高了网络生存周期。 | ||
搜索关键词: | 一种 基于 增强 学习 无线 网路 方法 | ||
【主权项】:
一种基于增强学习的无线体域网路由方法,其特征在于该方法所包含的步骤为:步骤1:用户在人体上部署汇聚节点和传感器节点,在传感器节点中指定需要发送人体消息的源节点,在每个传感器节点上预先存储其邻居传感器节点的编号和位置、到邻居传感器节点的通信能耗值;步骤2:用户启动汇聚节点和所有传感器节点,指定网络运行的最大轮次t,汇聚节点定义一系列Q值,依次为Q、Q1、Q2、…、Qk、…、Qt,这些值均设置为0,k表示路径选择的当前轮次,Q值是存储于汇聚节点或传感器节点中的一个变量,Qi是汇聚节点第i轮对应的变量;每个传感器节点定义一个集合D和一个Q值,该集合D存放邻居节点号和对应的已计算好的到该邻居节点的回报值,最初所有回报值为0;然后设置每个传感器节点的Q值为0,对于传感器节点i,它到邻居节点j的回报值R(j)是邻居节点j的剩余能量Rj与传感器节点i到邻居节点j的传输能耗值Ei,j=(2LE1+LEadθ)ehop(j)/hop(i)的比值,其中i和j是节点的编号,E1表示线路发送或接收数据损耗的能量,hop(i)表示节点i到汇聚节点的跳数,hop(j)表示的是节点j到汇聚节点的跳数,d表示的是两节点之间的距离,L代表着发送信息的比特数,Ea是能量放大系数,Ea取值小于1;θ是一个参数,用户设定阈值d0,当d小于d0时,θ取值为2,当d大于d0时,θ取值为4,所述Q值是存储于汇聚节点或传感器节点中的一个变量,用于选择后续路径;步骤3:当网络运行的最大轮次超过t时,网络停止工作;当网络运行的最大轮次没有超过t时,需要发送人体消息的源节点从集合D中依次取每一个邻居节点判定到该邻居节点的回报值是否为0,若源节点到该邻居节点的回报值不为0,则取下一个邻居节点进行判定;若源节点到该邻居节点的回报值为0,则源节点向该邻居节点发送握手信息,当在用户指定的阈值时间内收到该邻居节点回复的握手信息,则计算源节点到该邻居节点的回报值,当在用户指定的阈值时间内没有收到该邻居节点的回复信息,则将源节点到该邻居节点的回报值置为‑1;需要发送人体消息的源节点完成判定到每一个邻居节点的回报值是否为0的工作后,将回报值最大的任意一个邻居节点确定为下一跳路由节点,设置Q值为上述的最大的回报值,将该Q值发送给确定好的下一跳路由节点;步骤4:当前已确定好的下一跳路由节点是传感器节点,进入步骤5;当前已确定好的下一跳路由节点是汇聚节点,进入步骤6;步骤5:已确定好的作为下一跳路由节点的当前传感器节点将接收到的上一跳路由节点发送来的Q值赋值给自己的Q值,并向其邻居节点广播发送握手信息,当在用户指定的阈值时间内收到该邻居节点回复的握手信息,则计算当前传感器节点到其邻居节点的回报值,当在用户指定的阈值时间内没有收到该邻居节点的回复信息,则将当前传感器节点到该邻居节点的回报值置为‑1;当前传感器节点完成判定到每一个邻居节点的回报值是否为0的工作后,将回报值最大的任意一个邻居节点确定为下一跳路由节点,将上述最大的回报值增加到当前传感器节点Q值中,当前传感器节点将其Q值发送给确定好的下一跳路由节点,进入步骤4;步骤6:已确定好的下一跳路由节点是汇聚节点,则表示寻址成功,汇聚节点将接收到的上一跳路由节点发送来的Q值赋值给自己的Q值,若汇聚节点首次接收到上一跳路由节点发送来的Q值,则自己的Q值赋值给Q1;否则,汇聚节点在第k次接收到上一跳路由节点发送来的Q值,通过Qk=(1‑α)Qk‑1+αmaxQ计算获取Qk;所述α是学习因子,由用户指定,其取值范围在0‑1之间,取值越大,学习效率越高,感知环境的能力越强,但相反会引起数据收发的延迟;maxQ是汇聚节点在第i次接收到上一跳路由节点发送来的Q值时,Q1、Q2、…、Qk‑1中的最大值;Qk代表汇聚节点在i次更新所得到的数值,Qk‑1代表汇聚节点在第k‑1次更新所得到的数值;步骤7:用户指定一轮稳定传输信息的时间阈值T,汇聚节点选取Q1、Q2、…、Qk中最大值对应的路径向源节点发送通知消息,让源节点在时间阈值T范围内沿着上述路径稳定传输信息;源节点稳定传输信息,当传输信息的时间超过时间阈值T时,进入步骤3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410176028.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种湿蒸汽干度在线检测装置
- 下一篇:一种往复式柱塞泵筒摩擦磨损试验装置