[发明专利]在线学习算法的并行化有效
申请号: | 201110184798.6 | 申请日: | 2011-06-23 |
公开(公告)号: | CN102298569A | 公开(公告)日: | 2011-12-28 |
发明(设计)人: | T·B·埃伦;O·伊萨科夫;陈伟柱;J·S·杜恩;T·I·博彻特;J·Q·坎德拉;T·K·H·格雷佩尔;R·赫布里希 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杨洁 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 学习 算法 并行 | ||
技术领域
本发明涉及在线学习技术,尤其涉及在线学习算法的并行化。
背景技术
在线学习算法是这样一类算法,其使用直到当前时刻的历史数据来作出决定。在线学习算法也被称为流算法。接着由每个机器应用增量式训练以一次学习一个实例。当新数据变得可用,算法不需要在全部数据上重新训练,因为它们继续增量地改善现有模型。在线算法最近在批算法上获得改善了的效率。
新的更大的规模问题极大地增加了数据的量。因此,单机器方案在在线算法的有效并行(并且仍保持准确性)方面不能够提供令人满意的性能。
发明内容
本发明的各实施例由所附权利要求书来定义。提供本发明的各实施例的高层次概览以便介绍将在以下具体实施方式一节中进一步描述的系统、方法和介质的概述。本概述既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于独立地帮助确定所要求保护的主题的范围。
本发明的各实施例包括在根据本发明的各实施例的在线学习算法的并行化中使用的动态批策略。该动态批策略提供了以原始模型状态和经更新的模型状态之间的阈值级别差异为基础的、而非根据恒定或预定批大小的合并功能。因此,随着节点的经更新的模型状态偏离原始模型状态,合并更频繁地发生。如果节点的状态不是显著地不同于原始状态,则所有节点与当前状态接近一致,并且合并是不必要的。
一训练过程包括读取一批传入流数据,从合作处理器检索任何缺少的模型信任,并且在该批传入流数据上进行学习。重复各读取、检索和学习步骤(包括更新局部贝叶斯参数),直到所测得的状态差异超过设定的阈值级别。向相应的多个处理器应用模型更新。处理器也可向另一处理器请求经更新的部分模型状态,其中作出请求的处理器将所请求的部分模型状态存储在其模型容器中。
本发明的其他实施例包括其上存储有指令的计算机可读机制,该指令在由计算设备执行时执行上述方法。
附图说明
以下将参考附图详细描述本发明的说明性实施例,附图通过引用结合于此,并且其中:
图1是示出根据本发明的各实施例使用的示例性计算机操作环境的框图;
图2是样本级策略的图示;
图3是批级策略的图示;
图4是微型批策略的图示;
图5是根据本发明的各实施例使用的并行化系统的图示;
图6是根据本发明的各实施例使用的并行化系统的流程图;
图7是根据本发明的各实施例使用的动态地并行地更新多个处理器的计算机实现的方法的流程图;以及
图8是在并行化学习系统中分配模型的计算机实现的方法的流程图。
具体实施方式
本发明的各实施例提供了用于动态地并行更新多个处理器的系统、方法和计算机可读存储介质。该具体实施方式和所附权利要求书满足适用的法定要求。
此处可使用术语“步骤”、“块”等来意味所采用的方法的不同动作,但是这些术语不应被解释为暗示任何特定次序,除非明确地描述了各单独步骤、框等的次序。同样,此处可使用术语“模块”等来意味所采用的系统的不同组件,但是这些术语不应被解释为暗示任何特定次序,除非明确地描述了各单独模块等的次序。
贯穿本发明的不同实施例的描述,使用若干缩写和简写符号来帮助理解关于相关联的系统、方法和计算机可读介质的特定概念。这些缩写和简写符号旨在帮助提供一种传达此处所表达的观念的容易方法,并且不意味着限制本发明的任何实施例的范围。
本发明的各实施例包括,但不限于,方法、系统以及具体化在一个或多个计算机可读介质上的计算机可执行指令集。计算机可读介质包括易失性和非易失性介质、可移动和不可移动介质、以及可由数据库和各种其它网络设备读取的介质。作为示例而非局限,计算机可读存储介质包括以用于存储信息的任何方法或技术实现的介质。存储的信息的示例包括计算机可使用的指令、数据结构、程序模块,及其他数据表示形式。介质示例包括,但不限于,信息传送介质、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD)、全息介质或其他光盘存储、磁带盒、磁带、磁盘存储以及其他磁存储设备。这些介质示例可被配置成暂时地、临时地或永久地存储数据。计算机可读介质包括唯一地存在于一个处理系统上或分布在对该计算系统为本地或远程的多个互连的处理系统之间的协作或互连的计算机可读介质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110184798.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有低耗能模式的显示器
- 下一篇:从技术未知的管理命令到多个管理协议的转换