[发明专利]用于预测建模的方法和系统有效
申请号: | 201180059660.1 | 申请日: | 2011-11-03 |
公开(公告)号: | CN103262069A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | C·林根菲尔德;M·武斯特;P·彭佩 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06K9/62 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;陈颖 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 预测 建模 方法 系统 | ||
技术领域
本发明总体涉及预测建模。具体地说,本发明涉及使根据训练数据集合生成的现有预测模型适应于诸如特征的给定概率分布之类的附加信息。
背景技术
预测建模是通过其创建或选择模型以尝试最佳地预测结果的概率的过程。通常,以检测理论为基础选择所述模型以尝试在给定输入数据的设定量的情况下猜测结果的概率(例如:给定电子邮件确定其有多可能是垃圾邮件)。因而,假定特征(指示指标)X的预定义的集合,预测建模的目标在于预测具体结果Y的概率P(Y|X)。可以将该任务看作是对于“真实”概率分布P(Y|X)的搜索,然而,这不是可直接观察的。相反,人们不得不尝试生成最佳分布,应该按照这样的方式选择该最佳分布以使得对特征X的基本分布P(X)的错误预测的风险被最小化。结果,实现良好预测,对于在应用领域中频繁出现的特征的组合应该给予高度关注,而可以忽略被预期为非常少发生的组合。
实际上,无论是“真实”概率分布P(Y|X)或者特征的“真实”分布P(X)都并非完全已知。而是基于示例的训练集合来逼近它们。基本假设是,“真实”分布P(X)、P(Y|X)将像训练示例中的那些那样表现。然而,情况往往并非如此。而且,示例的训练集合可能是嘈杂的;在这种情况下,使模型完美地适应于训练数据将导致“过度适配”并且将产生没有精确地反映“真实”分布P(X)、P(Y|X)的模型。另一方面,特征的“真实”分布P(X)与实际应用域中的训练数据的分布不同可以是已知前提。例如,如果要生成预测给定疾病的扩散的模型,则训练数据会是错误的,因为可能仅标识了测试为正的人群的一小部分,而已知实际百分比要更高。在这种情况下,训练数据中正样本的分布没有反映被传染人群的“真实”分布。
如果已知训练数据与实际真实世界的数据相比表现出不同的分布,则可以使用该知识来调整发现最佳预测模型的过程。具体地说,开发了能够考虑给定分布P(X)或P(Y|X)并且将其与训练数据进行组合的算法。结果是遵循由P(X)或P(Y)施加的约束并且仍然尽可能好地逼近训练数据的模型。
如在US2008/0065572A1中所描述的那样,在标签Y的给定分布P(Y)的情况下,这可以通过使用成本敏感分类器来实现。这样的分类器受大多数最先进的预测分析工具(诸如IBM的SPSS软件或者IMB的InfoSphere Warehouse)的支持。
如在Proceedings of the Third IEEE International Conference on Data Mining(2003)p.435ff中作者为B.Zadrozny等人的“Cost-Sensitive Learning by Cost-Proportionate Example Weighting”所描述的那样,在指示指标X的给定分布P(X)的情况下,这可以通过拒绝采样或者通过使用示例加权来实现。这样的方法仅支持产品等级上的一些算法;然而,可以相应地延伸大多数算法。
所有这些算法假设关于实际的“真实”分布P(X)或P(Y)的信息是静态的、并且在模型训练过程开始之前已知。然而,经常期望能够向具有不同的基本“真实”分布P(X)的各种情形应用单一模型。而且,分析员将经常喜欢从假设(what-if)分析方面交互式地研究关于指示指标X的分布P(X)的不同假设的结果。在全部这些情形中使用单一的全局模型将具有严重的缺点:
-首先,所述模型在结构化风险的意义上将可能不是最佳的,因为一些情况在实际中可能比在训练集合中更加经常地多地发生、并且因而应该与其它情况相比被给出更高的关注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180059660.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带U盘的手机保护套
- 下一篇:锂离子二次电池正极材料镍钴锰酸锂的制备方法