[发明专利]一种基于强化学习的命名数据网络拥塞控制方法有效
申请号: | 201810964187.5 | 申请日: | 2018-08-23 |
公开(公告)号: | CN108881048B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 张宇;郭彦涛;王亚东;安旭溟;陈延祥;安建平;卜祥元 | 申请(专利权)人: | 北京理工大学;中国电子科技集团公司第五十四研究所 |
主分类号: | H04L12/801 | 分类号: | H04L12/801;H04L12/947 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于强化学习的命名数据网络拥塞控制方法,属于网络信息传输通信技术领域。本方法从转发策略的角度出发,通过将路由节点转发兴趣包的过程映射为马尔可夫决策过程,以最小响应时间为目标,在考虑NDN中的网内缓存、多路径转发,并不对链路容量或数据包大小做任何假设的情况下,采用强化学习的方法求解最优策略。强化学习求解方法中,具体采用结合资格迹的Sarsa算法——Sarsa(λ)算法,以获得理论上良好的算法性能。本方法通过动态转发策略智能地选择转发端口,尽量避免向拥塞链路发送流量,以主动规避和缓解拥塞。 | ||
搜索关键词: | 强化学习 算法 数据网络 拥塞控制 求解 马尔可夫决策过程 转发 缓存 通信技术领域 网络信息传输 动态转发 发送流量 路由节点 拥塞链路 主动规避 转发策略 转发端口 最优策略 多路径 数据包 映射 对链 拥塞 智能 响应 缓解 资格 | ||
【主权项】:
1.一种基于强化学习的命名数据网络拥塞控制方法,其特征在于,包括以下步骤:步骤1:对命名数据网络NDN建立强化学习模型,所述模型建立方法如下:步骤1‑1利用NDN中路由节点的学习和计算能力,将路由节点看作智能体agent;步骤1‑2将路由节点向不同的端口转发兴趣包的过程作为agent选择执行动作的过程,多个可转发的端口对应多个可执行的动作;步骤1‑3将兴趣包从一个路由节点通过选择端口转发到另一个路由节点的过程映射为agent将兴趣包从一个状态通过选择相应的动作转移到另一个状态的过程;步骤1‑4每个路由节点选择一个端口转发兴趣包后,将兴趣包传输到下一个路由节点的时间映射为环境反馈给agent的立即回报值r(s,a),该时间通过相应的数据包返回时携带的时间戳信息计算得到;时间戳通过向数据包的结构中添加新的字段项以实现携带,记录的是数据包离开上一个节点的时间;此外,数据包还负责携带上游路由节点下一个状态的Q值返回,以完成当前状态的值函数更新;更新后的数据包,路由节点的FIB表中每一个前缀对应一个条目,条目中的每一个端口都有一个度量条目,能够存储标准化的度量信息;将Q值加入原有的度量条目中,数据包携带的以及更新的都为此Q值;步骤1‑5记状态空间为S={St0,St0+1,…,ST‑1,ST},其中,St0表示t0时刻agent的状态,ST表示T时刻agent的状态,状态指节点将兴趣包从当前节点发送到存储相应数据的节点;记动作集A={At0,At0+1,…,AT‑1,AT},表示不同状态下所选择的动作;一个状态的动作集记为A(s)={a1,a2,...,an‑1,an},表示兴趣包到达一个路由节点后可选的n个转发端口;数据包的时间戳记为tstamp,到达下游路由节点的时间记为tarrival,回报值ΔT=tarrival‑tstamp;路由节点为每一个前缀下的每一个转发端口维护一个动作值Q(s,a),动作值更新公式如下:
其中,s为agent的当前状态,a为当前状态下选择的动作,β为学习速率,δt为误差,ΔT为回报值,γ为折扣率,St为t时刻agent的状态,At表示t时刻agent的动作,Qt(s,a)为t时刻状态‑动作对(s,a)的动作值,Et(s,a)为t时刻状态‑动作对(s,a)的资格迹;
其中,s为agent的当前状态,a为当前状态下选择的动作,γ为折扣率,λ为迹衰减参数,St为t时刻agent的状态,At表示t时刻agent的动作,Qt(s,a)为t时刻状态‑动作对(s,a)的动作值,Et(s,a)为t时刻状态‑动作对(s,a)的资格迹;步骤2、根据步骤1建立的强化学习模型,设计转发策略;所述转发策略如下:将数据包返回到该路由节点的时间记为RTTr,将RTTr作为转发策略的依据,采用结合资格迹的Sarsa(λ)算法求解最佳策略;在更新策略的方法上,采用针对现有的动作值的贪婪策略:ε‑greedy策略,即,以1‑ε的概率选择最佳动作,以ε的概率选择其他非贪婪动作;将转发策略分为初始化阶段和应用及持续探索阶段:初始化阶段:获得初始Q值;当路由节点收到兴趣包后,向所有可转发的端口发送兴趣包,获得每个端口的初始Q值;应用及持续探索阶段:根据初始化阶段得到的初始Q值,按照贪婪策略进行探索并持续更新Q值;当得到初始Q值后,路由节点依据ε‑greedy策略进行探索;路由节点向端口转发兴趣包,以1‑ε的概率选择最佳Q值端口,以ε的概率选择其他端口以保证持续性的探索,在数据包返回的过程中不断更新Q值;当端口超时后,将式(1)中的δt设置为一个不小于108的常量;基于步骤2的转发策略,对命名数据网络NDN进行拥塞控制。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;中国电子科技集团公司第五十四研究所,未经北京理工大学;中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810964187.5/,转载请声明来源钻瓜专利网。