[发明专利]基于Parallel_ModCTANE的一致性检测模型构建方法在审
申请号: | 202210254599.6 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114461702A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 王潇凯;万定生;余宇峰 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/27;G06F16/21;G06F16/242;G06F16/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 parallel_modctane 一致性 检测 模型 构建 方法 | ||
1.一种基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:包括以下步骤:
步骤S1、在模型中确定分布式节点个数、支持度、水文数据等参数,使用ParalleL_ModCTANE算法进行分布式并行条件函数依赖(Conditional Functional Dependencies,CFDs)挖掘;
步骤S2、将步骤S1挖掘得到的候选条件函数依赖集以及经过专家经验得出的条件函数依赖集进行合并,进行条件函数依赖过滤;
步骤S3、根据步骤S2过滤得到的符合水情业务一致性检测需求的条件函数依赖集转换成对应的SQL语句;
步骤S4、使用基于主数据的联表不一致性检测算法LTMD(Inconsistencies DetectionAlgorithm for Linked Tables based on Master Data)分别进行单条件函数依赖检测以及多条件函数依赖检测。
2.根据权利要求1所述的基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:所述步骤S1中根据水文数据属性进行候选CFDs分组,并根据分布式节点个数进行大数据水平切分,然后使用Parallel_ModCTANE算法进行分布式并行条件函数依赖挖掘;
其中,进行分布式并行条件函数依赖挖掘的具体步骤为:
步骤S1.1、确定候选条件函数依赖分组的公共属性;
步骤S1.2、对各个数据节点中的数据通过散列函数切分成n份,n为分布式子节点个数;
步骤S1.3、将切分之后的数据按照步骤S1.2后每一个元组切片中的元组的散列值进行重分布;
步骤S1.4、逐层生成左方集中包含公共属性的候选条件函数依赖;
步骤S1.5、使用Parallel_ModCTANE算法的剪枝原理对条件函数依赖挖掘的搜索空间进行剪枝。
3.根据权利要求1所述的基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:所述步骤S2中需要对S1步骤挖掘获得的条件函数依赖集使用基于知识过滤的FA_CFD_KF算法(Filtering Algorithm of Conditional Functional Dependencies basedon Knowledge Filtering)进行条件函数依赖过滤,主要以下实现步骤:
步骤S2.1、将步骤S1挖掘得到的条件函数依赖集同经过专家经验总结的条件函数依赖集进行合并;
步骤S2.2、基于业务需求涉及的属性集过滤出候选条件函数依赖集;
步骤S2.3、基于知识过滤的原理对候选条件函数依赖集进行过滤,过滤出违反最小非平凡原则的CFDs;
步骤S2.4、基于知识过滤的原理对候选条件函数依赖集进行过滤,过滤出重复的CFDs。
4.根据权利要求1所述的基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:所述步骤S3中将步骤S2过滤得到的条件函数依赖集转换为SQL检测语句,包括如下步骤:
将单条CFD转换为SQL检测语句需要两个步骤:
首先检测CFDs的右方集,需要在左方集的属性值匹配的情况下搜索是否存在右方集属性不符合的元组,如果存在那么一致性检测不通过;
其次需要进行多层检测,先对左方集的属性以及右方集的属性值进行值域的筛选,再通过group by语句对左方集的取值进行分组,通过distinct语句计算出左方集属性指向的右方集的属性值是否只有一个。
与单条件函数依赖不同,组合后的多条件函数依赖中存在无关属性,导致原来的SQL查询语句时无法准确查询出一致性错误,需要在SQL语句中使用case关键词,对无关属性先做一步筛选工作,再进行查询语句的执行。
5.根据权利要求1所述的基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:所述步骤S4中使用LTMD算法进行基于主数据的联表不一致性检测,包括如下步骤:
步骤S4.1、根据具体的业务需求获取检测所需的条件函数依赖集;
步骤S4.2、传入主表数据并选取进行联表检测所需要的辅助表;
步骤S4.3、根据辅表对主表进行完整性检测;
步骤S4.4、使用LTMD算法进行基于主数据的联表不一致性检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210254599.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于流向的分布式水文模型并行计算方法
- 下一篇:一种新型发光层板灯