[发明专利]计算回归模型有效
申请号: | 201380070189.5 | 申请日: | 2013-10-24 |
公开(公告)号: | CN104937544A | 公开(公告)日: | 2015-09-23 |
发明(设计)人: | 石静云;梁栋;朱雅珍 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 吴信刚 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 回归 模型 | ||
技术领域
本发明的实施例涉及利用映射-简化(Map-Reduce)框架中的扫描(sweep)操作计算可能的回归模型。
背景技术
多元线性回归模型通常用于分析一个目标变量(Y)和预测因子变量列表(X)之间的关系。提出如前向选择、淘汰落后、逐步推进等等的众多的技术用以在k个预测因子的大集中选择能够比其他预测因子更能影响目标的一些预测因子。
预测因子可以被描述为预测或影响预测回归模型中的目标的字段。目标可被描述为由回归模型中的一个或多个预测因子(predictor)预测或影响的字段。
寻找最佳回归的方法之一是基于所选择的标准,例如调整后的R方等执行所有的2k回归模型。这种技术也被称为“穷举搜索”。当k较大时,由于计算时间随着k呈指数级增长,执行所有可能的回归可能并不现实。已经作出提高性能的努力,这些努力大致沿两条路径:(1)利用顺序策略,从一个回归模型移动到另一个回归模型;(2)利用并行计算策略来分发密集计算。
映射-简化框架已经成为一种流行的模式,因为它可以处理互联网时代越来越普遍的分布式数据源中的拍字节(petabytes)级的数据。映射-简化框架使应用程序与分布式集群中成千上万的节点一起工作。典型的map-reduce任务通常使用多个映射器在不同的数据拆分/块中进行计算,并且使用一个或多个简化器将映射器的结果合并在一起,以使最终结果/统计数据是基于整个数据的。
发明内容
提供了一种用于计算任务结果的方法、计算机程序产品和系统。记录的处理数据集被创建,其中,每个记录包含特定于一组实际子任务中的一个子任务的数据并包含由该组实际子任务共享数据的参考,并且其中记录的数目相当于该组实际子任务中的实际子任务的数目。利用一组映射器的每一个映射器,接收处理数据集的一个记录并且利用该接收的一个记录执行分配的子任务以产生输出。利用单个简化器,简化从该组映射器的每一个映射器的输出以确定任务的结果。
附图说明
下面参考附图,其中相似的参考标记代表相应的部件,其中:
图1示出了根据某些实施例的映射-简化框架;
图2示出了根据某些实施例的表中的回归模型序列;
图3示出了根据某些实施例的用于计算可能的回归模型的整体流程;
图4示出了根据某些实施例的将全局序列划分成本地序列的例子;
图5示出了根据某些实施例的映射-简化框架实现的例子;
图6示出了用于利用映射-简化框架在原始数据集执行任务的操作的流程图。图6由图6A和图6B组成。
图7描述了根据某些实施例的云计算节点;
图8描述了根据某些实施例的云计算环境;
图9描述了根据某些实施例的抽象回归模型层。
具体实施方式
已经呈现本发明各种实施例的描述用于说明的目的,但不旨在穷尽或限制于所公开的实施例。对那些本领域的普通技术人员来说,不脱离所描述实施例范围的许多修改和变化将是显而易见的。本文所用的术语被选择最好地解释实施例的原理、实际应用以及市场上找到的技术的改进,或使其他普通技术人员能够理解在此公开的实施例。
实施例利用映射-简化框架通过利用扫描操作为k个预测因子计算2k的可能回归模型。实施例利用多个节点(映射器)并行计算本地回归模型(例如,本地最佳回归模型),然后利用一个节点(简化器)合并多个节点的结果以从本地回归模型中选择全局回归模型(例如,全局最佳回归模型)。实施例以系统的方式将全局搜索序列分解成多个本地搜索序列,并且可以在多个节点独立地执行本地搜索序列。本地搜索序列可以描述为全局搜索序列的子序列。
节点可以被描述为与集群中的一个中央处理单元(CPU)相关的执行单元。集群可以描述为具有多个节点,并且这些节点可以位于相同或不同的计算机。在某些实施例中,节点可以执行一个映射或简化任务。
在某些实施例中,多个映射器和单个简化器可以在具有多个CPU核心的单个计算机/机器上执行。在某些实施例中,多个映射器和单个简化器可以在不同的计算机/机器上执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380070189.5/2.html,转载请声明来源钻瓜专利网。