[发明专利]平衡数据建模中的起源和准确性权衡的方法和系统在审
申请号: | 201410682237.2 | 申请日: | 2014-11-24 |
公开(公告)号: | CN104731843A | 公开(公告)日: | 2015-06-24 |
发明(设计)人: | C·古特曼;孙行智 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平衡 数据 建模 中的 起源 准确性 权衡 方法 系统 | ||
技术领域
本公开一般地涉及计算机化建模,更具体地说,涉及大型分析模型。
背景技术
计算机化数据建模可以用于促进更好地理解大型数据集。数据建模技术的应用很广泛,并且可以包括金融、保险、医疗保健、教育等领域。尽管在创建分析模型中收集信息是一项挑战,但同样重要的挑战是呈现信息以使其有用的方式。
发明内容
本发明的各实施例提供一种用于生成计算机化分析模型的方法、系统和计算机程序产品,所述计算机化分析模型接收具有定义的第一特性集的原始数据集。基于将领域知识集应用于所述第一特性集,定义第二特性集,以及基于所述第一和第二特性集的特性之间的关系,生成特性层次结构。从所述特性层次结构中选择特性集,其中将所述第二特性集的尽可能多的特性结合到所述分析模型中,同时维持定义的准确性值。基于所选择的特性集,生成计算机化分析模型。
附图说明
图1A是根据本公开的一个实施例的数据建模环境的组件的示意框图;
图1B是示出根据本公开的一个实施例的图1A的数据建模环境的选择组件的示意框图;
图2示出根据本公开的一个实施例的示例性特性层次结构;
图3A是根据本公开的一个实施例的特性层次结构的示意框图;
图3B是根据本公开的一个实施例的决策树模型的示意框图;
图4A是示出根据本公开的一个实施例的用于生成分析模型的方法的步骤的流程图;
图4B是示出根据本公开的一个实施例的图4A的方法的其它步骤的流程图;
图5是根据本公开的一个实施例的计算机系统的示意框图;
图6是根据本公开的一个实施例的示例性云计算环境的框图;以及
图7是根据本公开的一个实施例的图6的示例性云计算环境的功能层的框图。
具体实施方式
本公开的各个方面提供解决方案以便生成分析模型和数据分类,它们比现有数据建模技术提供的解决方案更全面。当前建模技术不提供有关使用什么特性形成模型以及由于什么原因的清晰视图。当底层数据的大小和结果数据模型的复杂性增加时,该问题加重。给定底层特性的复杂性,最终用户例如可能不注意或者甚至可能拒绝有价值的洞察。一个实例是医疗保健领域,其中数据起源(provenance)尤其重要,因为在患者信息的数据挖掘中使用的抽象并且原始的特性集不易于理解,或者甚至不易于呈现给领域中的专家。如果分析模型和它所基于的特性未得到很好的解释,则医疗保健领域中的决策者可能不愿意接受分析模型进行的建议。
例如,第一模型可以基于收集的对应于不同年龄的患者的原始数据,以很高的准确性预测在患者生命的随后每一年内,70岁以上的患者有95%的可能性需要高成本保健。高成本保健例如可以定义为对应于为患者提供的医疗服务的成本的货币价值。尽管该实例中的模型高度准确,但为什么70岁在预测医疗保健成本中发挥作用可能并不显而易见,即,模型可能具有相对低的起源。使用该实例中的模型的医疗保健专业人员可能无法确定最佳实践,以便帮助患者变得更健康并且产生较低的医疗保健成本,因为医疗保健专业人员和患者可能对患者年龄具有有限的控制。
另一方面,使用本公开的各实施例生成的模型可以包括基于收集的数据和信息的更有意义的特性,它们可以使医疗保健专业人员和患者能够采取纠正或预防措施,以便降低提供给患者的医疗保健的成本。例如,起源级别相对高于上面实例中的第一模型的第二模型可以使用第一模型的相同底层数据,以70%的准确性预测血糖水平高于特定值的患者可能产生高医疗保健成本。尽管此第二模型可能在预测患者是否产生高医疗保健成本方面不如第一模型准确,但第二模型允许医疗保健专业人员确定影响高医疗保健成本的因素,医疗保健专业人员可以解决该因素。在该实例中,使用第二模型的医疗保健专业人员可以建议患者接受治疗以便降低患者的血糖水平。这是第一模型不支持的建议,尽管第一模型远比第二模型准确。
以分类模型为例,大多数现有方法集中于构建可以在分类准确性方面提供高质量性能的分类模型。因此,通常同等对待模型中的所有特性,并且基于特性对分类准确性的影响选择这些特性。但是,可用于生成分析模型的不同特性可以包含不同级别的语义。通常,用于在分析模型中进行分析的原始数据集包含基本特性。本公开有助于在这些基本特性之上进行构建,以便可以通过应用领域知识(例如,医疗保健领域知识),开发新的有意义特性。例如,这可以尤其适用于以下情况:给定可接受级别的分类准确性,期望较高的起源级别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司;,未经国际商业机器公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410682237.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置