[发明专利]基于多智能体强化学习路由策略控制路由动作的方法有效

专利信息
申请号: 202010199453.7 申请日: 2020-03-20
公开(公告)号: CN111416771B 公开(公告)日: 2022-02-25
发明(设计)人: 陈怿;曾思亮;许行飞 申请(专利权)人: 深圳市大数据研究院;香港中文大学(深圳)
主分类号: H04L45/00 分类号: H04L45/00;H04L45/02;H04L45/037;H04L45/30
代理公司: 北京智信四方知识产权代理有限公司 11519 代理人: 刘真
地址: 518172 广东省深圳市龙岗*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 智能 强化 学习 路由 策略 控制 动作 方法
【权利要求书】:

1.一种基于多智能体强化学习路由策略控制路由动作的方法,其特征在于,包括:

训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;

根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;

根据所述策略参数,确定所述路由节点的传出链接;

其中,所述结合更新的所述决策值利用策略梯度算法更新策略参数,包括:

使用如下公式2更新策略参数θi

其中,θi为所有状态-动作组合(s,a)对应的参数集合,用来标记状态-动作组合(s,a)的偏好值;(s,a)组成一对状态-动作组合,s表示t时刻的状态,即数据包的目标节点,a表示s状态下的动作,即数据包的传出链接;上标i、j分别表示路由节点,路由节点j为路由节点i的邻居路由节点;β为更新策略参数θi的学习率;

公式2中是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,由利用Q学习算法更新后的决策值确定;表示对θ求导;

π(a|s,θi)表示在状态s下选择动作a的概率,由策略参数θi决定。

2.根据权利要求1所述的方法,其特征在于,所述强化学习模型利用Q学习算法更新路由节点的决策值,包括:

使用以下公式1更新决策值Qi(s,a):

其中,α为更新决策值Qi(s,a)的学习率;γ∈[0,1]为折算系数;

为t时刻下路由节点i通过传出链接ai转发数据包至目标节点s的决策值的预测量;

为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励,其为数据包在路由节点i的缓存延迟与数据包在传出链接a的传输延迟之和的负数;

为在t时刻下路由节点j通过传出链接aj转发数据包至目标节点s的决策值。

3.根据权利要求2所述的方法,其特征在于,所述π(a|s,θi)表示在状态s下选择动作a的概率,由策略参数θi决定,按照SoftMax函数定义如下:

其中,∑a′expθsa′为遍历路由节点i所有可能的传出链接a′;

对π(a|s,θi)求导为:

其中,表示路由节点i对状态-动作组合的偏好值,表示当前数据包的目标节点,表示当前数据包的传出链接。

4.根据权利要求3所述的方法,其特征在于,还包括:

利用资格迹更新策略梯度使用如下公式3:

其中,资格迹按照公式4进行更新:

其中,用来记录路由节点i过去的梯度更新痕迹;ρ为梯度的折算系数;表示策略π在t时刻的资格;

公式3中是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定。

5.根据权利要求4所述的方法,其特征在于,还包括:

利用全局反馈信号更新策略参数θi,使用如下公式5:

其中,δt为路由节点i的全局反馈信号;(St,At)为t时刻整个网络的状态-联合动作集合;St为t时刻所有激活的路由节点的状态;A为St状态下所有激活的路由节点的联合动作;A′为St+1状态下所有激活的路由节点的联合动作;Rt为路由网络在t时刻所产生的全局奖励;τt标记t时刻作出路由动作的路由节点的集合;估计了t时刻所有被传输的数据包的总递送时间;为路由节点i的决策值,根据公式1更新后的决策值确定。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市大数据研究院;香港中文大学(深圳),未经深圳市大数据研究院;香港中文大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010199453.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top