[发明专利]一种基于Q学习的车载网MAC协议的实现方法有效

申请号：	201510777878.0	申请日：	2015-11-13
公开（公告）号：	CN105306176B	公开（公告）日：	2019-08-09
发明（设计）人：	赵海涛;杜艾芊;刘南杰;朱洪波	申请（专利权）人：	南京邮电大学
主分类号：	H04L1/12	分类号：	H04L1/12;H04W28/08;H04W74/08;H04L29/08
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于Q学习的车载网MAC协议的实现方法，方法中车辆节点利用Q学习算法，在VANETs(车载自组织网)环境中通过反复试错与环境不断交互学习，根据VANETs环境给予的反馈信号(即奖赏值)，动态地调整竞争窗口(CW)，使节点总能以最佳的CW(即从周围环境中获得的奖赏值最大时所选的CW值)接入信道，最终达到减少数据帧碰撞率和传输时延，提高节点接入信道的公平性的目的。
搜索关键词：	一种基于学习车载 mac 协议实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Q学习的车载网MAC协议的实现方法，其特征在于，所述方法包括如下步骤：步骤1：在VANETs环境中，当前车辆节点有消息要发送时，将其竞争窗口初始化为CW_min后发送数据；步骤2：判断数据是否成功发送；步骤3：若接收节点成功接收到消息，发送节点则获得一个正的奖赏值并更新其Q表，然后判断是否还有数据需要发送；步骤4：若没有数据需要发送，则流程结束；步骤5：若还有消息需要发送，则减小当前竞争窗口，即竞争窗口为15时不再减小，继续发送消息，返回执行步骤2；步骤6：若接收节点没有成功接收到消息，发送节点获得一个负的奖赏值并更新其Q表，然后增加当前竞争窗口，即竞争窗口为1023时不再增加，再次发送数据，返回执行步骤2；所述VANETs环境中，车辆节点利用Q学习算法在周围环境中通过反复试错与环境不断交互学习，根据VANETs环境给予的反馈信号，在节点退避过程中动态地调整竞争窗口，即CW，使节点总能以最佳的CW，即从周围环境中获得的奖赏值最大时所选的CW值接入信道；QL‑MAC中采用的Q‑Learning算法定义包括如下：整个车载自组织网络即Agent学习的环境，网络中的每个车辆节点即Agent，车辆节点在网络中接入信道时所采用的竞争窗口即Agent学习环境的环境状态，由此车辆节点可能采用的所有竞争窗口集即Agent学习环境的状态空间，由于节点在网络中接入信道的竞争窗口通常为2的指数幂减1，因此竞争窗口集为{15,31,63,127,255,511,1023}，竞争窗口初始值CW_min为15，最大值CW_max为1023，每一Agent可执行的动作有：1)增加(I)，2)保持(K)，3)减少(R)，“增加”即增大竞争窗口，“保持”和“减少”则分别是保持竞争窗口大小不变和减小竞争窗口，节点每执行一个动作后，环境状态就发生状态转移，在网络环境中不断探索学习的过程中，每一节点在状态——动作对之间都维护一个Q表，Q表中包含Q值Q(s_t,a_t)，Q值的变化范围为‑1到1，其中s_t为当前竞争窗口的大小，a_t为节点可能执行的动作，每发送完一个MAC帧后，节点根据发送状态从网络环境中获得一个奖赏值，若发送成功，节点得到一个正的奖赏，若发送失败，所述算法中定义MAC层重传次数不超过4，即数据重传4次后，发送节点还是接收不到数据帧对应的ACK消息，则定义此次发送失败，节点则得到一个负的奖赏，丢包主要是由与其他数据包发生碰撞造成的，通过对奖赏值进行评价，节点自适应地调整其竞争窗口大小，总选择执行能使累积奖赏值Q值最大化的最优动作；2)Q值更新,包括：Agent与环境不断交互学习过程中，节点接入信道可能执行的动作有：增加(I)、保持(K)、减少(R)，状态空间为{15,31,63,127,255,511,1023}，当竞争窗口为最小值时，竞争窗口无法继续减少，同样地，当竞争窗口为最大值时，竞争窗口无法继续增加；VANETs中，节点采用QL‑MAC算法发送MAC数据帧过程中，利用状态——动作对的值函数Q(s_t,a_t)进行迭代，并利用奖赏作为估计函数来选择下一动作，对Q函数进行优化，通过多步迭代学习逼近最优值函数，节点每发送一次数据帧，就更新一次Q表，更新Q值的表达式即Q学习的迭代公式为：其中α为学习率，是Agent在环境中的学习步长，用于控制学习速度，α值越大，Q值收敛越快，由于MAC数据帧发送较为频繁，0.6足以反映网络拓扑的变化程度，所以本发明设α取值为0.6，γ为折扣因子，γ∈[0,1]，它体现了Agent对以后环境所给予奖励的重视程度，取值越大表示越重视以后的奖励，反之，则只在乎眼前的奖励，本发明中取γ为0.9，车辆节点在VANETs中初次接入信道发送数据时，会首先初始化Q(s_t,a_t)的值，然后根据探索策略在状态s_t时选择执行动作a_t，得到下一状态s_t+1及其奖赏值R，之后根据奖赏值通过迭代公式公式1更新Q值，一直循环执行直到实现目标状态或达到限制的迭代次数，其中奖赏值R计算如下：其中R_CW表示选择当前的CW值接入信道成功发送数据所获得的正奖赏，发送失败，奖赏值为‑1，若当前状态正在发送数据，奖赏值为0，成功发送数据所选的CW值越小，得到的奖赏值就越大，而网络负载过高时，节点从环境中获得负的奖赏从而增加竞争窗口，这样能使节点充分利用信道资源。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510777878.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于协同调度传输下行数据的方法与设备
下一篇：一种自适应的车联网终端接入方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L1-00 检测或防止收到信息中的差错的装置
H04L1-02 .应用分集接收
H04L1-08 .应用重发，例如Verdan系统
H04L1-12 .应用返回信道
H04L1-20 .用信号质量检测器
H04L1-22 .用冗余装置以提高可靠性

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Q学习的车载网MAC协议的实现方法有效

专利文献下载