[发明专利]一种数据一致性检测方法有效
申请号: | 202010042892.7 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111259027B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 李培军;许舒人;魏克刚;田申;罗剑刚;颜复海 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/215;G06F16/27 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据一致性 检测 方法 | ||
本发明公开了一种数据一致性检测方法,其步骤包括:1)根据分布式数据库或者不同数据源之间数据的关联关系和一致性约束条件,构建数据关系模型图;构建所述数据关系模型图的方法为:首先对待检测数据从业务和数据交互角度抽象出一系列的数据实体节点,并为每一个数据实体节点指定一个分类标签;然后根据各数据实体节点之间的关联关系,构建数据实体节点之间的数据实体链接关系;数据实体节点上设置用于数据实体节点一致性检测的规则,数据实体链接关系上设置用于两个数据实体节点之间链接一致性检测的链接规则;2)基于数据关系模型图对交换数据进行一致性检测。本发明能够准确发现和定位数据之间的一致性问题,有效提升数据质量。
技术领域
本发明涉及一种数据一致性检测方法,用于分布式数据库和分布式数据交换过程中的数据一致性检测,能有效提升数据质量,属于计算机应用领域。
背景技术
数据质量一直是数据处理的关键之一,在数据分析过程中数据的预处理和质量保证工作会占用较大比例的工作量,因为数据质量直接影响到后续数据分析的效果。传统的数据库设计遵循三大范式对数据质量和数据之间的关联有较强的约束,但随着数据量的增加,为了提升数据处理效率增加了冗余性,而有些时候为了减少外键约束对查询性能的影响逐渐放开强制的外键约束关系,这些情况都会导致数据不一致情况的增加。而随着分布式数据库、分布式数据仓库和大数据等技术的发展,分布式系统之间数据交换工作量大大增加,大量的数据交换、数据清洗和预处理等操作都会导致数据质量问题的增多。NoSQL非关系型数据库和列存储数据库在提升相应性能的同时也减弱了数据之间的关联和约束。所以,这些数据操作都很容易导致数据质量问题的出现,尤其是数据之间的关联性和一致性问题很容易出现又很难发现。
现有对数据质量问题的研究主要集中在对表字段的检查和处理方面,多采用基于规则和正则表达式的方式检查字段是否符合规定的要求,对存在的质量问题研究相应的修正方法。对数据库表和字段之间关联性方面主要依靠外键关系进行检查。但是,现有的方法对数据之间关联关系的分析和检测还是不够,主要表现在二个方面,一是如果仅仅采用基于外键关联关系进行检测很可能不够全面,因为现在很多数据库设计为了提升性能而减少了对数据关联关系的强制约束,采用隐性关联关系,从数据库本身很难发现数据之间的关联性。第二,数据之间一般存在多个级别关联关系,表之间的关联一般涉及多个表多个层次的关联,并且数据之间关联是有方向和依赖关系的,数据的写入是存在先后关系的,数据之间关联关系的检查需要考虑隐性关联和依赖性逐级深入进行,所以需要一种能够完整描述数据之间全局关联关系的检测方法来实现数据之间的一致性检测。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种数据一致性的检测方法,用于分布式数据存储和分布式数据交换过程中数据的一致性检测,通过本方法能够实现数据之间关联关系和一致性的准确描述和定义,以及数据链接完整性、数据依赖性和批量数据一致性的检测,从而能够准确发现和定位数据之间的一致性问题,有效提升数据质量。
本发明的技术方案为:
一种数据一致性检测方法,其步骤包括:
1)根据分布式数据库或者不同数据源之间数据的关联关系和一致性约束条件,构建用于一致性检测的数据关系模型图;其中,所述数据关系模型图包括数据实体节点DataEntityNode、分类标签ClassifyLabel、节点一致性检测规则DetectionRule和数据实体链接关系Relationship;构建所述数据关系模型图的方法为:首先对待检测数据从业务和数据交互角度抽象出一系列的数据实体节点DataEntityNode,并为每一个数据实体节点指定一个分类标签ClassifyLabel;然后根据各数据实体节点之间的关联关系或依赖关系,构建数据实体节点之间的数据实体链接关系Relationship;所述数据实体节点DataEntityNode上设置用于数据实体节点一致性检测的规则DetectionRule,所述数据实体链接关系Relationship上设置用于两个数据实体节点之间链接一致性检测的链接规则RelationRule;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010042892.7/2.html,转载请声明来源钻瓜专利网。