[发明专利]用于在查询时间清洗基于序列的数据的方法和系统有效
申请号: | 200710169255.0 | 申请日: | 2007-11-07 |
公开(公告)号: | CN101183378A | 公开(公告)日: | 2008-05-21 |
发明(设计)人: | 饶军;L·S·柯比;S·T·多雷斯瓦米;H·塔卡 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 于静;李峥 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 查询 时间 清洗 基于 序列 数据 方法 系统 | ||
技术领域
本发明涉及一种用于在查询时间清洗(cleansing)基于序列的数据(sequence-based data)的系统和方法。
背景技术
诸如射频识别数据(RFID)之类的基于序列的数据正被配置于包括供应链优化、业务过程自动化、资产跟踪,以及问题追踪能力应用在内的应用领域中。基于序列的数据读(sequence-based data reads)存在异常(anomaly)起因于诸如重复读(duplicate reads)、漏读(missed reads)和交叉读(cross reads)的很多不同的来源。异常还可以发生在逻辑或业务过程级。在分析结果中,RFID读中的少量异常可能转换成大的错误。常规的“急切(eager)”数据清洗方法试图在最前面移除所有的异常,在数据库中仅存储清洗后的数据,并且然后在清洗后的数据上应用查询。对于在最前面移除异常的该尝试发生在,例如,将清洗后的数据加载到数据仓库中的抽取-变换-加载(Extract-Trnasform-Load,ETL)过程期间。然而,在最前面移除所有这样的异常并不总是可能的。一个原因在于清洗所需要的规则和业务上下文可能在数据加载时间不可用。例如,可能并不知道存在循环以及它们是否会影响任何分析,直到用户于一段时间之后在查询结果中观察到不规则。结果,应用可能不断地发展现有的异常定义并且添加新的异常定义。进一步地,用于校正数据异常的规则经常是专用的(即,几个应用在相同的数据集上有差别地定义异常和校正)。例如,第一应用查询跟踪存架空间规划(shelf space planning)或劳动生产率要求关于存储器内所有循环的知识,而对产品项目在每个位置已经呆了多久进行计算的第二应用需要移除循环中除了最初和最后的读之外的一切。更进一步,对于特定的应用(例如,药品电子谱系跟踪(pharmaceutical e-pedigreetracking))来说,法律要求保留跟踪信息,由此排除了在最前面的数据清洗。此外,当不同的应用要求规定了动态变化的规则集合时,维护和修改多个清洗后的版本在物理上是禁止的。因而,需要克服相关领域的前述不足和限制中的至少一个。
发明内容
在第一实施例中,本发明提供了一种在查询时间从基于序列的数据中清洗异常的计算机实现的方法,其包括:
将基于序列的数据加载到由计算系统的数据库管理系统(DBMS)所管理的数据库中,所述加载是在先于所述基于序列的数据的查询时间的、所述基于序列的数据的加载时间进行的;
在所述计算系统的清洗规则引擎处接收清洗规则;
通过所述清洗规则引擎,将所述清洗规则自动转换成模板,所述模板包括对所述基于序列的数据中的一个或多个异常进行补偿的逻辑;
在所述查询时间并且通过所述计算系统的查询重写引擎,接收检索所述基于序列的数据的用户查询;
在所述查询时间并且通过所述查询重写引擎,自动重写所述用户查询以提供重写的查询,所述自动重写包括:应用包括在所述模板中的所述逻辑来补偿所述一个或多个异常;以及
在所述查询时间,通过所述DBMS执行所述重写的查询,其中,通过执行所述重写的查询所提供的应答与在通过将所述清洗规则应用于所有的所述基于序列的数据而生成的数据集上执行所述用户查询的结果一样。
在第二实施例中,本发明提供了一种通过相对于多个清洗规则重写查询而在查询时间从基于序列的数据中清洗异常的计算机实现的方法,其包括:
将基于序列的数据加载到由计算系统的数据库管理系统(DBMS)所管理的数据库中,所述基于序列的数据包括一个或多个异常;
在所述计算系统的清洗规则引擎处接收多个清洗规则C1,…,Cn;
通过所述计算系统的查询重写引擎,接收检索所述基于序列的数据的用户查询Q;
通过所述查询重写引擎自动重写所述用户查询以提供重写的查询;
通过所述DBMS执行所述重写的查询,所述执行包括:从所述基于序列的数据生成清洗后的数据,所述清洗后的数据不包括所述一个或多个异常,
其中所述自动重写包括:
对于所述多个清洗规则C1,…,Cn中的每个清洗规则Ci,进行第一循环,其包括:
对于关系表R上包括在清洗规则Ci的模式中的一个或多个上下文参考(context reference)中的每个上下文参考X,进行第二循环,其包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710169255.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:乙醇酸的制造方法
- 下一篇:用于移动通信终端的改良的图形用户接口