[发明专利]对输入数据记录集执行基于集成模型的预测的方法和系统有效

申请号：	201410359973.4	申请日：	2014-07-25
公开（公告）号：	CN104345974B	公开（公告）日：	2017-10-13
发明（设计）人：	P·塞考兹;M·科罗泊泰克;K·思考罗恩思基	申请（专利权）人：	国际商业机器公司
主分类号：	G06F3/041	分类号：	G06F3/041
代理公司：	中国国际贸易促进委员会专利商标事务所11038	代理人：	李玲
地址：	美国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	输入数据记录执行基于集成模型预测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机实现的预测方法领域。更具体地，本发明涉及使用决策树或回归树来用于自动预测。

背景技术

决策树和回归树是广泛使用的预测模型。决策树是可以用来将输入数据分成不同的预定类的数据结构。回归树是可以用来根据输入数据计算数据值形式(例如，整数)的预测结果的数据结构。下面会将根据一些输入数据来计算结果数据值和分成预定类称为“预测”。

为了增加准确性，通常的方法是使用多个决策树的组合或者多个回归树的组合来计算预测。所述树的集合被称为“树集成模型”或者“集成模型”(ensemble model)。需要使用合适的组合方案对集成模型中每个树的预测进行组合，例如用于决策树集成的未加权或加权投票函数和用于回归树集成的未加权或加权平均。

对预测使用单个树模型通常是快速处理，即使是改善的树模型。不幸的是，对于可能包括几千个单个的树的集成模型来说不是这样的：使用N个树的集成来预测结果所需的时间是使用单个树模型时所需的预测时间的N倍。从而，通过使用多个树获得的精度上的改进会带来高计算成本的缺点。

基于集成树的预测的很大的计算成本也是执行(分析)数据库中的这些算法的障碍，所述算法必须提供足够的处理能力来执行在多个数据库表上的复杂连接(join)和其他需要大量计算的任务，因此不能在基于树的预测上花太多的CPU能力。

有些数据库内的分析环境，诸如IBM Netezza分析，已经包括一些基于决策树和回归树的预测逻辑。基于存储的程序和用户自定义的函数或集合来实施所述逻辑。大量的开销与采用所述基于树的预测逻辑有关，因为集成模型的不同树在其上运行的输入数据集必须是冗余存储的。另外，针对每个树的临时表创建和存储程序的调用会增加计算开销。当在同一输入数据集上顺序处理树时也可能产生后一种开销。因此，必须要冗余地创建和保持输入数据集的表和索引结构。这增加了处理成本，并减慢了当前的数据库内分析方案中的基于树的预测。通常，使用的输入数据集是小的或者中等大小的。在这种情况下，与实际预测的计算成本有关的输入数据集及其副本的处理成本在存储器和CPU消耗方面是特别昂贵的。

发明内容

本发明实施方式的目的是提供一种使用集成模型来自动预测的改进的方法。通过独立权利要求的主题解决所述目的。从属权利要求描述了优选的实施方式。除非明确说明，否则本发明的实施方式可以相互自由组合。

在此使用的“数据库”是由数据库管理系统(DBMS)管理的有组织的数据集合。特别地，DBMS可以是列型或关系型DBMS。DBMS的示例众所周知的有诸如MySQL、PostgreSQL、SQLite和IBM DB2的DBMS。DBMS可以嵌入ERP系统中或者诸如IBM Netezza Analytics的分析平台中。

在此使用的“拆分标准”(split criterion)可以是与决策树或回归树中的节点相关的、用于评估输入数据记录的一个或多个属性的属性值的任何类型的程序逻辑。根据评估结果，所述输入数据记录可以被分配(“传递”或“调度”)到所述节点的一个或多个子节点中的一个子节点。拆分标准例如可以实施为针对特定的属性专用阈值运行的比较函数。根据输入记录的属性值超过或者等于或低于所述阈值，数据记录可以被分配到子节点中的一个子节点。拆分标准例如可以是平等条件、子集隶属条件、离散属性值的值条件(每个属性值对应于一个子节点)、不平等条件、间隔划分条件等等。例如，拆分标准可以包括一个或多个参考值，或者包括与匹配函数相结合的一个或多个不相交的参考值范围。匹配函数可以将输入数据记录的属性值与属性专用参考值或值范围相比较。每个参考值或值范围可以代表包括拆分标准的当前节点的子节点中的一个子节点，以及输入数据记录将被再分配给其参考值或参考值范围与输入数据记录的属性值匹配的一个子节点。可替换的，拆分标准可以是更复杂的函数，例如，指数或对数函数、支持向量机(SVM)、神经网络、统计函数或任何其他用于评估一个或多个属性值并返回数据记录将分配到哪个子节点的决策的合适的函数。

在此使用的“并行数据库系统”为DBMS，该DBMS使用至少一些其操作的并行化，特别的，像从存储器加载数据、创建索引和评估查询的操作。并行DBMS可操作用于将数据和过程自动分配到多个存储设备和CPU。可以通过并行DBMS基于对性能的考虑来自动管理数据和过程的分布。并行DBMS例如可以基于多处理器体系结构或混合体系结构。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国际商业机器公司，未经国际商业机器公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410359973.4/2.html，转载请声明来源钻瓜专利网。

上一篇：直管与套管半自动焊接流水线的操作方法
下一篇：一种宽幅不锈钢带生产装置及不锈钢带的生产方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]对输入数据记录集执行基于集成模型的预测的方法和系统有效

专利文献下载