[发明专利]比较并选择数据净化服务提供者有效
申请号: | 201110307767.5 | 申请日: | 2011-09-28 |
公开(公告)号: | CN102521226A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | N·哈比;E·齐克利克;E·胡迪斯;G·皮莱格 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杨洁 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 比较 选择 数据 净化 服务 提供者 | ||
相关申请的交叉引用
不适用。
技术领域
本发明涉及数据净化,尤其涉及比较并选择数据净化服务提供者。
背景技术
1.背景和相关技术
计算机系统和相关技术影响社会的许多方面。的确,计算机系统处理信息的能力已转变了人们生活和工作的方式。计算机系统现在通常执行在计算机系统出现以前手动执行的许多任务(例如,文字处理、日程安排和会计等)。最近,计算机系统彼此耦合并耦合到其他电子设备,以形成计算机系统和其他电子设备可以在其上传输电子数据的有线和无线计算机网络。因此,许多计算任务的执行跨多个不同的计算机系统和/或多个不同的计算环境分布。
在一些计算环境中,各种不同类型的数据被存储在数据库中并从数据库中访问。一些数据库存储指定类型的数据,诸如,例如,客户地址、员工信息等。通常,数据是手动输入数据库的。手动数据输入易造成人为错误。此外,许多错误一旦输入就变得实际上无法检测到,因为一旦数据被输入,与数据的进一步人为交互如果有也很少。此外,一些错误,诸如,电话号码中多余数字,难以被标识。其他数据不一致性可能由不同存储中的相似条目的不同数据字典定义、或由传输和/或存储错误所导致。因此,数据库可能随时间积累了各种数据错误和不一致性。
管理地,不正确或不一致数据可导致在公共和私人范围上的错误的结论和方向错误的投资。例如,政府可能希望分析人口普查图来决定哪些区域需要在基础设施和服务上进一步花费和投资。在此情况中,访问可靠数据避免错误的财政决定将是重要的。
在商业世界,不正确的数据可能是代价昂贵的。许多公司使用客户信息数据库,其中记录了诸如联系信息、地址,和偏好的数据。如果例如,地址不一致,公司将付出重发邮件甚至丢失客户的代价。
因此,有时,数据库管理者可“净化”或“擦洗”数据。数据净化或数据擦洗包括,从记录集、表,或数据库检测和纠正(或移除)破坏的或不准确的记录。常常被用于数据库,数据净化或擦洗可标识不完整的、不正确的、不准确的、不相关的等数据部分,并随后替换、修改,或删除这些“脏”数据。在净化之后,数据集与其他类似数据集一致(至少更一致)。
数据净化的实际过程可涉及移除打字错误或相对于已知条目列表确认并纠正值。确认可能是严格的(诸如拒绝不具有有效邮政编码的任何地址)或模糊的(诸如纠正与现存已知的记录部分地匹配的记录)。
已知条目的列表可由配置用于净化指定类型数据的数据净化服务提供者提供。例如,数据净化服务可被配置为净化美国的邮政地址或电话号码。对于一些类型的数据,可存在多个(潜在大量)不同数据净化服务提供者。然而,来自不同数据净化服务提供者的结果的充分性可能显著变化。评估多个不同数据净化服务提供者以标识对于指定类型数据的“最佳”数据净化服务可能是手动的且劳动密集的过程。
发明内容
本发明涉及用于比较并选择数据净化服务提供者的方法、系统和计算机程序产品。在一些实施例中,标识用于净化的参考数据服务提供者。样本数据源被映射到所选数据域。数据域与具有指定数据安排的数据元素相关联。样本数据源具有已知的数据不一致性。
多个参考数据服务提供者的列表配置用于净化在所选数据域中的数据的数据元素。接收要对被探查的多个参考数据服务提供者的子集的选择。样本数据源被提交给参考数据服务提供者的子集中的每个参考数据服务提供者。从参考数据服务提供者的子集中的每个参考数据服务提供者接收回净化样本数据源的结果。对于每个参考数据服务提供者,该结果包括从样本数据源获取的所谓已净化了的样本数据源。
来自多个参考数据服务提供者的子集中的每个参考数据服务提供者的结果被剖析。剖析包括确定每个参考数据服务提供者如何处理样本数据源中的已知数据不一致性。在显示设备上显示多个参考数据服务提供者的子集间的比较。所显示的比较基于所剖析的结果。从所显示的比较接收对参考数据服务提供者的用户选择。将所选参考数据服务提供者指示为适合净化数据域中的进一步的数据。
提供本发明内容以便以简化的形式介绍将在以下的具体实施方式中进一步描述的一些发明内容。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110307767.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改进型打火机防风气化炉
- 下一篇:多功能电动行李箱
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置