[发明专利]对输入数据记录集执行基于集成模型的预测的方法和系统有效
申请号: | 201410359973.4 | 申请日: | 2014-07-25 |
公开(公告)号: | CN104345974B | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | P·塞考兹;M·科罗泊泰克;K·思考罗恩思基 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F3/041 | 分类号: | G06F3/041 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 李玲 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输入 数据 记录 执行 基于 集成 模型 预测 方法 系统 | ||
技术领域
本发明涉及计算机实现的预测方法领域。更具体地,本发明涉及使用决策树或回归树来用于自动预测。
背景技术
决策树和回归树是广泛使用的预测模型。决策树是可以用来将输入数据分成不同的预定类的数据结构。回归树是可以用来根据输入数据计算数据值形式(例如,整数)的预测结果的数据结构。下面会将根据一些输入数据来计算结果数据值和分成预定类称为“预测”。
为了增加准确性,通常的方法是使用多个决策树的组合或者多个回归树的组合来计算预测。所述树的集合被称为“树集成模型”或者“集成模型”(ensemble model)。需要使用合适的组合方案对集成模型中每个树的预测进行组合,例如用于决策树集成的未加权或加权投票函数和用于回归树集成的未加权或加权平均。
对预测使用单个树模型通常是快速处理,即使是改善的树模型。不幸的是,对于可能包括几千个单个的树的集成模型来说不是这样的:使用N个树的集成来预测结果所需的时间是使用单个树模型时所需的预测时间的N倍。从而,通过使用多个树获得的精度上的改进会带来高计算成本的缺点。
基于集成树的预测的很大的计算成本也是执行(分析)数据库中的这些算法的障碍,所述算法必须提供足够的处理能力来执行在多个数据库表上的复杂连接(join)和其他需要大量计算的任务,因此不能在基于树的预测上花太多的CPU能力。
有些数据库内的分析环境,诸如IBM Netezza分析,已经包括一些基于决策树和回归树的预测逻辑。基于存储的程序和用户自定义的函数或集合来实施所述逻辑。大量的开销与采用所述基于树的预测逻辑有关,因为集成模型的不同树在其上运行的输入数据集必须是冗余存储的。另外,针对每个树的临时表创建和存储程序的调用会增加计算开销。当在同一输入数据集上顺序处理树时也可能产生后一种开销。因此,必须要冗余地创建和保持输入数据集的表和索引结构。这增加了处理成本,并减慢了当前的数据库内分析方案中的基于树的预测。通常,使用的输入数据集是小的或者中等大小的。在这种情况下,与实际预测的计算成本有关的输入数据集及其副本的处理成本在存储器和CPU消耗方面是特别昂贵的。
发明内容
本发明实施方式的目的是提供一种使用集成模型来自动预测的改进的方法。通过独立权利要求的主题解决所述目的。从属权利要求描述了优选的实施方式。除非明确说明,否则本发明的实施方式可以相互自由组合。
在此使用的“数据库”是由数据库管理系统(DBMS)管理的有组织的数据集合。特别地,DBMS可以是列型或关系型DBMS。DBMS的示例众所周知的有诸如MySQL、PostgreSQL、SQLite和IBM DB2的DBMS。DBMS可以嵌入ERP系统中或者诸如IBM Netezza Analytics的分析平台中。
在此使用的“拆分标准”(split criterion)可以是与决策树或回归树中的节点相关的、用于评估输入数据记录的一个或多个属性的属性值的任何类型的程序逻辑。根据评估结果,所述输入数据记录可以被分配(“传递”或“调度”)到所述节点的一个或多个子节点中的一个子节点。拆分标准例如可以实施为针对特定的属性专用阈值运行的比较函数。根据输入记录的属性值超过或者等于或低于所述阈值,数据记录可以被分配到子节点中的一个子节点。拆分标准例如可以是平等条件、子集隶属条件、离散属性值的值条件(每个属性值对应于一个子节点)、不平等条件、间隔划分条件等等。例如,拆分标准可以包括一个或多个参考值,或者包括与匹配函数相结合的一个或多个不相交的参考值范围。匹配函数可以将输入数据记录的属性值与属性专用参考值或值范围相比较。每个参考值或值范围可以代表包括拆分标准的当前节点的子节点中的一个子节点,以及输入数据记录将被再分配给其参考值或参考值范围与输入数据记录的属性值匹配的一个子节点。可替换的,拆分标准可以是更复杂的函数,例如,指数或对数函数、支持向量机(SVM)、神经网络、统计函数或任何其他用于评估一个或多个属性值并返回数据记录将分配到哪个子节点的决策的合适的函数。
在此使用的“并行数据库系统”为DBMS,该DBMS使用至少一些其操作的并行化,特别的,像从存储器加载数据、创建索引和评估查询的操作。并行DBMS可操作用于将数据和过程自动分配到多个存储设备和CPU。可以通过并行DBMS基于对性能的考虑来自动管理数据和过程的分布。并行DBMS例如可以基于多处理器体系结构或混合体系结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410359973.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置