[发明专利]一种多源异质数据融合平台在审
申请号: | 201711113864.4 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107844581A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 陈涛 | 申请(专利权)人: | 成都蓝景信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都中亚专利代理有限公司51126 | 代理人: | 王岗 |
地址: | 610000 四川省成都市武侯区武侯*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异 质数 融合 平台 | ||
技术领域
本发明涉及数据融合领域,具体讲是一种多源异质数据融合平台。
背景技术
关系型数据库支持多种约束,其中包含保证引用完整性的外键约束。两条数据可以建立父子关联,子数据提供一个外键列以保存父数据的id,用户需要对此外键列建立外键约束以保证,一条数据的外键要么为空,即暂时不指向任何父数据,要么必须是一个已经存在的父数据的合法id。通过这样的强行限定,数据之间的关系总是完整的,子数据不可能持有非法的外键导致无法指向一个存在的父数据而形成一个非法且毫无意义的错误关系,这是关系型数据库的之所以叫关系型数据的原因,也是数据库和文职类从业人员手中的普通电子表格的重要区别之一。
实际项目中,不可能所有数据都是自己提供和维护,总会不得不使用很多第三方的数据服务。理想情况下,第三方数据服务供应商应该提供一个约束健全的数据库并源源不断地将数据变更同步过来,但实际上,一部分数据服务供应商很有可能提供无约束的数据库,尤其是技术实力极其薄弱的纯业务驱动型供应商。一旦数据库约束缺失,当子数据先被同步到消费者数据库中但其对应的父数据并没有来得及推送时,子数据中原本只应该是合法父数据id的外键就可以违规地保存一个还未完成同步而并不存在的父数据的id,最终引起一系列错误。这种做法忽略数据的父子关系,将所有数据视为彼此孤立的无关数据,所以可以不管先后顺序地、机械地持续同步数据变更即可,大幅降低数据服务的难度。但对数据消费方而言,这样包含大量非法关系的数据库是无法被直接使用的,一段比较长的时间后的后续的数据同步虽然能修复之前的问题,但同时也会制造新的问题,数据库永远处于非法状态。
发明内容
因此,为了解决上述不足,本发明在此提供一种多源异质数据融合平台;该框架平台在实际项目中起到了不可替代的关键作用。即便第三方数据库为大幅简化数据同步技术而放弃约束选择提供含非法数据的低质量数据库,该框架仍然能将之转化为约束健全的、关系正确的、逻辑严密的、可以被生产环境直接访问的高质量数据库。正是此框架的底层支持,整个上层复杂应用的开发才变得可行。
本发明是这样实现的,构造一种多源异质数据融合平台,其特征在于:所述多源异质数据融合平台包括Metadata模块、数据读取模块、Transformer转换模块以及Foreign Key修复模块;
其中,Metadata模块用于分析用户的代码结构,自动生成建表、建约束、建索引的SQL语句,在目标数据库中生成用户期望的数据结构;
其中,系统数据读取模块从低质量源数据库直接读取所有数据;同时,从源数据库变更日志中源源不断地读取数据变更;
其中,Transformer转换模块从事件队列中获取数据变更,调用用户代码,将旧的数据按照项目具体业务需要转变为期望的新数据;
与此同时,Transformer转换模块将加工后的新数据放入高质量目标数据库;
并且,Transformer转化模块通知Foreign Key修复模块新数据到来,可能需要修复外键;
所述,Foreign Key修复模块将目标数据库中可以因最新数据的到达而变得合法的所有外键约束全部修复。
根据本发明所述一种多源异质数据融合平台,其特征在于:系统数据读取模块从源数据库直接读取所有数据,此过程极其漫长,往往数天;故系统首次上线之前做一次,仅此一次,以后不再全量更新,取而代之的是增量更新。
根据本发明所述一种多源异质数据融合平台,其特征在于:对于数据读取模块来讲,无论是何种方式读取到数据,均放入后续的事件队列;事件队列的存在的目的是为解决数据读取模块的处理速度和后续数据转换模块的处理速度可能不一致的问题,提供一定的缓冲。
根据本发明所述一种多源异质数据融合平台,其特征在于:转化模块从事件队列中提取源数据库数据变更事件后,并不仅仅是简单地按照业务进行转化并保存到目标数据库中;而会检查当前被推送的数据中中是否有外键(Foreign Key),如果某些外键的值暂时不能在目标数据库中引用到合法数据,则在目标数据库中将该数据的外键暂时设置为无,同时将其未来可能的取值保留在额外的临时标记字段中,一直持续到未来的某次事件处理后该临时标记字段所期望的被引用数据也被推送到位时,这时才设置原来那条数据的外键,以让其引用最新被推送过来的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都蓝景信息技术有限公司,未经成都蓝景信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711113864.4/2.html,转载请声明来源钻瓜专利网。