[发明专利]基于多智能体强化学习路由策略控制路由动作的方法有效
申请号: | 202010199453.7 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111416771B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 陈怿;曾思亮;许行飞 | 申请(专利权)人: | 深圳市大数据研究院;香港中文大学(深圳) |
主分类号: | H04L45/00 | 分类号: | H04L45/00;H04L45/02;H04L45/037;H04L45/30 |
代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 刘真 |
地址: | 518172 广东省深圳市龙岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 强化 学习 路由 策略 控制 动作 方法 | ||
本发明涉及信息技术领域,公开了一种基于多智能体强化学习路由策略控制路由动作的方法,包括:训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;根据所述策略参数,确定所述路由节点的传出链接。本发明针对动态变化的网络连接的模式和网络负载,路由节点都能及时调整路由策略,根据数据包的目标节点选择合适的最短路径,最终大大减少了数据包的平均递送时间。
技术领域
本发明涉及信息技术领域,尤其涉及一种基于多智能体强化学习路由策略控制路由动作的方法。
背景技术
通讯网络中的封包路由(packet routing)是序列决策中的一个重要应用问题。一个通讯网络包括一组节点和连接这些节点的链接,数据中心网络和互联网可以被看作通讯网络的现实例子。在一个通讯网络中,信息以数据包的形式在节点间传递。路由选择就是指导数据包如何通过一系列的中间节点,从初始节点到达目标节点的决策过程。通常情况下,数据包在通讯网络中存在多个路径可供选择,而且路径的选择通常决定了数据包的平均递送时间。
目前,针对封包路由问题已经有非常多的基于领域知识以及实践经验的启发式算法被提出,然而其中大部分的路由方法都依赖于对特定环境的理解来建立模拟网络模型。这些模拟网络模型忽略了许多重要的网络特点,比如动态变化的网络负载和移动用户,因此在这些模型下所做出的路由选择往往并不能使得数据包的平均递送时间降低到最小。
发明内容
为了解决相关技术中存在的问题,本公开实施例提供一种基于多智能体强化学习路由策略控制路由动作的方法。
本公开实施例提供的一种基于多智能体强化学习路由策略控制路由动作的方法,包括:
训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;
根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;
根据所述策略参数,确定所述路由节点的传出链接。
可选地,所述强化学习模型利用Q学习算法更新路由节点的决策值,包括:
使用以下公式1更新决策值Qi(s,a):
其中,(s,a)组成一对状态-动作组合,s表示t时刻的状态,即数据包的目标节点,a表示s状态下的动作,即数据包的传出链接;上标i、j分别表示路由节点,路由节点j为路由节点i的邻居路由节点;α为更新决策值Qi(s,a)的学习率;γ∈[0,1]为折算系数;
为t时刻下路由节点i通过传出链接ai转发数据包至目标节点s的决策值的预测量;
为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励,其为数据包在路由节点i的缓存延迟与数据包在传出链接a的传输延迟之和的负数;
为在t时刻下路由节点j通过传出链接aj转发数据包至目标节点s的决策值。
可选地,所述结合更新的所述决策值利用策略梯度算法更新策略参数,包括:
使用如下公式2更新策略参数θi:
其中,θi为所有状态-动作组合(s,a)对应的参数集合,用来标记状态-动作组合(s,a)的偏好值;β为更新策略参数θi的学习率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市大数据研究院;香港中文大学(深圳),未经深圳市大数据研究院;香港中文大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010199453.7/2.html,转载请声明来源钻瓜专利网。