[发明专利]整合来自多个源的时间感知的数据的系统和方法在审
申请号: | 201410681528.X | 申请日: | 2014-11-24 |
公开(公告)号: | CN104714999A | 公开(公告)日: | 2015-06-17 |
发明(设计)人: | M·A·罗斯;陈婉秋 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 边海梅 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 整合 来自 多个源 时间 感知 数据 系统 方法 | ||
技术领域
本发明总体上涉及数据整合和数据交换领域。更具体而言,本发明涉及整合来自多个源的时间感知的数据的系统和方法。
背景技术
随着可用数据,例如,监管(curated)数据库、企业数据以及因特网上公开可用数据的数量和多样性,很少能够通过单个数据源完全包含并管理有关某一实体的信息。使来自多个源的数据相组合或者使同一源随着时间的推移而报告的各种数据版本相组合对于产生更加全面的理解往往具有很高的价值。例如,患者在其一生当中通常访问甚至经常同时多个医疗专业人员/机构。尽管每一医疗机构为其患者保存医疗历史记录是很重要的,但是使患者和医疗专业人员两者都能访问从由每个机构保存的历史导出的整合简档将具有更高的价值。类似地,潜在的顾主将得益于使求职人员的简历与其他数据相组合,例如,公开简档数据或者甚至先前的简历版本。
这些示例表明数据的时间方面可能是至关重要的。例如,知道是否在同一时间段内为用户开了具有不良相互作用的两种不同的药物是很重要的。类似地,如果不同的源报告求职人员在同一时间段内就任多个职位,那么对于人力资源经理来说了解拥有头衔的顺序,以推断该求职者是受到过提升、降职还是有可能提供了粉饰过的简历将是有用的。
在整合时间感知的数据时将出现若干挑战,其中时间感知的数据是指包含诸如处方日期的隐含时间特定的信息或者诸如实例的版本号的明确时间信息的数据。首先,与数据相关的时间方面往往不精确。机构可以报告患者在具体的日期针对某种病症接受了治疗。由这一信息,可以推断患者在他/她看病的当天必然已经患有了该病症,但是不知道患者是否仍然患有该病症,或者在就诊之前或就诊之后其患有该病症多长时间。当与来自对同一诊所或其他诊所的其他就诊信息相组合时,就有可能递增地建立起该患者的越来越精确的医疗历史。
其次,与常规数据整合一样,在将来自多个源的数据组合到一起时,相对于某些指定的约束可能出现不一致性。跨越时间处理某些约束的需要更增加了复杂性(参考C.S.Jensen等人的文章“Extending existing dependency theory to temporal databases,”IEEE Trans.Knowl.Data Eng.,8(4):563-582,1996)。例如,尽管雇员在某时可能真的只从顾主那里收到一个薪水包,但是如果他/她同时受雇于多个公司,那么该雇员就可能同时收到多个薪水包。作为另一个示例,向美国证券交易委员会(SEC)提交的报告或者公司新闻稿可能报告某位执行官在给定的某天拥有特定的头衔,但是它不会提供有关最初拥有该头衔的时间或者在该报告或新闻稿公布之后是否仍然拥有该头衔的信息。另一数据源(或者甚至在不同时间点上的同一数据源)可能报告所述执行官在晚于第一源报告他/她的头衔的日期的某日受雇于所述公司。两个报告都给出不精确的信息。从该执行官的雇佣历史能够推断出什么?应当假定他/她一直到与其职务相关的(较早)日期为止都受雇于所述公司,还是应当支持第二源报告的(较晚)日期而忽视其值?
在整合随着时间的推移来自多个源的有关同一实体的信息时,挑战在于,维持关于该实体已知的各种事实的时间一致性,其中假定这样的事实是在不同的时间从不同的源习知的,而且与这些事实相关的时间可能是不精确的。理想地,整合过程应当遵守模式约束和跨越时间的功能相关性,并且具有幂等(idempotent)、可交换(cummutative)和可结合(associative)特性,以确保实体的时间一致的简档,而不管习知的各个事实的顺序如何。
当前的技术不提供这样的保证。例如,可以采用标准的双重时间(bi-temporal)数据库来跟踪何时习知各个事实,但是其不能保证无论发生更新的顺序如何对各个事实的最新理解都将是相同的。考虑下面的示例:
UPDATE STOCKHOLDINGS FOR PORTION OF BUSINESS_TIME
FROM’08/23/2010’to CURRENT DATE
SET SHARES=141,
WHERE NAME=’Freddy Gold’
UPDATE STOCKHOLDINGS FOR PORTION OF BUSINESS_TIME
FROM’08/20/2010’to CURRENT DATE
SET SHARES=396043,
WHERE NAME=’Freddy Gold’
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司;,未经国际商业机器公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410681528.X/2.html,转载请声明来源钻瓜专利网。