[发明专利]一种基于强化学习的丢包控制方法和计算机设备有效
申请号: | 202110326078.2 | 申请日: | 2021-03-26 |
公开(公告)号: | CN113079044B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 蒋宗亨;李宗鹏;黄浩 | 申请(专利权)人: | 武汉大学 |
主分类号: | H04L41/14 | 分类号: | H04L41/14;H04L47/32;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 控制 方法 计算机 设备 | ||
1.一种基于强化学习的丢包控制方法,其特征在于,所述基于强化学习的丢包控制方法包括:
每间隔预设控制时长,确定路由器的状态信息,其中,所述状态信息包括:若干时刻各自分别对应的队列长度值;
将所述状态信息和预设的动作集合作为已训练的网络模型的输入项,通过所述已训练的网络模型确定TCP丢包概率和无响应丢包概率;
设定所述路由器按照所述TCP丢包概率和所述无响应丢包概率进行丢包处理;
所述已训练的网络模型的训练过程包括:
获取初始训练状态信息,以及获取初始网络模型和预设的训练动作集合,其中,所述训练动作集合中包括多个训练动作,训练动作用于反映训练TCP丢包概率;
将所述初始训练状态信息和所述训练动作集合输入所述初始网络模型,通过所述初始网络模型确定目标训练价值,并在所述训练动作集合中确定所述目标训练价值对应的候选动作;
基于所述候选动作确定候选状态信息,并确定所述候选状态信息对应的奖励值和终止状态;
基于所述初始训练状态信息、所述候选动作、所述候选状态信息、所述奖励值和所述终止状态,确定所述初始训练状态信息对应的经验五元组;
将所述候选状态信息作为所述初始训练状态信息,并继续执行将所述初始训练状态信息和所述训练动作集合输入所述初始网络模型的步骤,直至得到第二预设数值个经验五元组;
确定每个经验五元组各自分别对应的目标经验价值,并基于所述每个经验五元组各自分别对应的目标经验价值确定损失值,通过所述损失值修改所述初始网络模型的模型参数,并继续执行所述将所述初始训练状态信息输入所述初始网络模型的步骤,直至满足所述初始网络模型的训练条件,以得到已训练的网络模型。
2.根据权利要求1所述的基于强化学习的丢包控制方法,其特征在于,所述确定路由器的状态信息,具体包括:
将确定路由器的状态信息的时刻作为目标时刻;
基于所述目标时刻、预设的第一时长、预设的第二时长确定第一时刻和第二时刻,其中,所述第一时刻是在所述目标时刻之前,距离所述目标时刻第一预设时长的时刻,所述第二时刻是在所述目标时刻之前,距离所述目标时刻第二预设时长的时刻;
根据所述第一时刻至所述第二时刻之间的每个时刻各自分别对应的队列长度值确定状态信息。
3.根据权利要求1所述的基于强化学习的丢包控制方法,其特征在于,所述动作集合中包括多个动作,每个动作均为丢包概率;所述将所述状态信息和预设的动作集合作为已训练的网络模型的输入项,通过所述已训练的网络模型确定TCP丢包概率和无响应丢包概率,具体包括:
将所述状态信息和所述动作集合作为已训练的网络模型的输入项,通过所述已训练的网络模型输出目标价值;
将所述目标价值对应的动作作为TCP丢包概率,并基于所述TCP丢包概率确定无响应丢包概率。
4.根据权利要求3所述的基于强化学习的丢包控制方法,其特征在于,所述将所述状态信息和所述动作集合作为已训练的网络模型的输入项,通过所述已训练的网络模型输出目标价值,具体包括:
对于每个动作,所述已训练的网络模型基于该动作和所述状态信息,确定该动作对应的价值;
在确定得到的所述多个动作各自分别对应的价值中选取最高价值,将所述最高价值作为目标价值并输出。
5.根据权利要求3所述的基于强化学习的丢包控制方法,其特征在于,所述基于所述TCP丢包概率确定无响应丢包概率,具体包括:
计算所述TCP丢包概率对应的二倍值,并选取所述二倍值和第一预设数值中的最小值,将选取的最小值作为无响应丢包概率。
6.根据权利要求1所述的基于强化学习的丢包控制方法,其特征在于,所述在所述训练动作集合中确定所述目标训练价值对应的候选动作,具体包括:
对于每个训练动作,若该训练动作是所述目标训练价值对应训练动作,则通过第一规则确定该训练动作的选择概率,若该训练动作不是所述目标训练价值对应的训练动作,则通过第二规则确定该训练动作的选择概率;
根据每个训练动作各自分别对应的选择概率,在所述多个训练动作中确定候选动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110326078.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旅游景点游客流量预警装置
- 下一篇:一种多阶螺杆橡胶塑化挤出生产装置