[发明专利]通过增强学习和传播来优化网络协议选项有效
申请号: | 200680054135.X | 申请日: | 2006-03-29 |
公开(公告)号: | CN101416466A | 公开(公告)日: | 2009-04-22 |
发明(设计)人: | C·李;W·徐 | 申请(专利权)人: | 英特尔公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/56 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 柯广华;张志醒 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 增强 学习 传播 优化 网络 协议 选项 | ||
1.一种网络通信方法,包括:
由网络的服务器的学习组件与一个或多个客户机和所述网络的环 境进行交互作用;
由所述学习组件进行经由所述网络的协议的网络通信的不同状态 中的一个或多个选项的不同尝试;
由所述学习组件接收所述不同尝试的性能反馈作为回报;
由所述学习组件利用所述不同尝试及关联的所得回报来改进与所 述服务器关联的决策策略,用于协商所述一个或多个选项;
由所述学习组件根据所述不同尝试和回报以及与选项的最佳集合 关联的所述环境的所观测配置将选项的所述最佳集合上载到集中位 置;以及
由选项协商组件选择适当动作以便使无限长运行期间的算入损失 的收益为最大。
2.如权利要求1所述的方法,其中,一个或多个其它服务器从所 述集中位置下载选项的所述最佳集合,以便用作在所述一个或多个其 它服务器的环境中开始新学习过程的初始点。
3.如权利要求1所述的方法,其中,所述选项协商组件应用增强 学习算法来改进与所述服务器关联的所述决策策略,用于协商所述一 个或多个选项。
4.如权利要求3所述的方法,其中,所述增强学习算法利用Q学 习算法。
5.如权利要求4所述的方法,其中,所述Q学习算法迭代计算由 所述选项协商组件进行的选项选择的最佳策略的值函数。
6.如权利要求1所述的方法,其中,所述选项协商组件是简单文 件传输协议(TFTP)服务器的组成部分。
7.一种网络通信设备,包括:
选项协商组件,选择通信协议的一个或多个选项,接收回报作为 与所述一个或多个选项的选择关联的性能反馈,根据所述回报来调整 所述一个或多个选项的选择,并将选项的所述最佳集合以及与选项的 所述最佳集合关联的环境的关联配置上载到集中位置;以及
文件传输组件,根据所述回报和所调整选择、利用所述选项协商 组件所选的所述一个或多个选项的最佳集合来传输文件,
其中,所述选项协商组件选择适当动作以便使无限长运行期间的 算入损失的收益为最大。
8.如权利要求7所述的设备,其中,所述选项协商组件应用增强 学习算法,所述增强学习算法确定待选择的所述一个或多个选项、所 述选择的所述性能反馈以及所述选择的调整。
9.如权利要求8所述的设备,其中,所述增强学习算法利用Q学 习算法。
10.如权利要求9所述的设备,其中,所述Q学习算法迭代计算 由所述选项协商组件进行的选项选择的最佳策略的值函数。
11.如权利要求7所述的设备,其中,所述选项协商组件和所述 文件传输组件是简单文件传输协议(TFTP)服务器的组件。
12.如权利要求7所述的设备,其中,一个或多个服务器下载与 所述关联环境相似的环境的选项的所述最佳集合。
13.一种网络通信系统,包括:
网络环境;以及
服务器,在通信上经由网络接口与所述网络环境耦合,并且包括:
选项协商组件,选择通信协议的一个或多个选项,接收 回报作为与所述一个或多个选项的选择关联的性能反馈,根 据所述回报来调整所述一个或多个选项的选择,并根据所述 不同尝试和回报以及与选项的最佳集合关联的所述环境的所 观测配置将选项的所述最佳集合上载到集中位置;以及
文件传输组件,根据所述回报和所调整选择、利用所述 选项协商组件所选的所述一个或多个选项的最佳集合来传输 文件,
其中,所述选项协商组件选择适当动作以便使无限长运 行期间的算入损失的收益为最大。
14.如权利要求13所述的系统,其中,所述选项协商组件应用增 强学习算法,所述增强学习算法确定待选择的所述一个或多个选项、 所述选择的所述性能反馈以及所述选择的调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680054135.X/1.html,转载请声明来源钻瓜专利网。