[发明专利]基于Parallel_ModCTANE的一致性检测模型构建方法在审
申请号: | 202210254599.6 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114461702A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 王潇凯;万定生;余宇峰 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/27;G06F16/21;G06F16/242;G06F16/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 parallel_modctane 一致性 检测 模型 构建 方法 | ||
本发明公开一种基于Parallel_ModCTANE的一致性检测模型构建方法,包括对CTANE算法进行改进;对水文数据进行分布式并行条件函数依赖挖掘;对条件函数依赖集进行过滤;对水文数据进行基于主数据的联表不一致性检测,得到水文数据的不一致性检测结果。本发明对数据进行初步清洗后,结合Parallel_ModCTANE方法进行分布式并行条件函数依赖挖掘,使得条件函数依赖挖掘的效率更高,使用基于主数据的联表不一致性检测算法进行一致性检测,使得检测的效率更高。
技术领域
本发明属于数据质量控制技术领域,具体涉及一种基于Parallel_ModCTANE的一致性检测模型构建方法。
背景技术
大数据是一种大规模的数据集合,在存储和管理分析中远远超过传统软件,以至于无法使用现有的数据库管理系统进行数据的存储、搜索、分析等操作,而必须通过数十台、数百台,甚至更大规模的服务器集群进行并行处理。大数据的核心价值在于存储和分析海量数据;因此大数据相关技术的战略意义不在于掌握大量数据信息,而在于专业处理有意义的数据。
在分布式水文大数据背景下,如果数据存在不一致性的情况,如何在测站节点、流域节点、省级节点的数据之间找出数据中隐含的条件函数依赖,来进行一致性检测能大大增加一致性检测的准确度。单个数据节点下,进行条件函数依赖挖掘的结果可能是局限的,仅仅在单个数据节点上起作用,在进行数据交换后,对于其他节点来说,这些条件函数依赖可能没有意义,这样将会大大降低水情业务数据一致性检测的准确度。本发明主要针对分布式水文大数据的一致性问题展开相关的研究,主要从大数据下的条件函数依赖挖掘和不一致性检测两个方面着手通过对大数据一致性问题的研究,从中找出违反函数依赖的数据和约束规则,为大数据的修复提供依据,也为水情业务的数据一致性提供理论支撑。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于Parallel_ModCTANE的一致性检测模型构建方法,通过数据挖掘以及数据质量控制的相关技术,对水情业务数据进行一致性检测。
技术方案:本发明的一种基于Parallel_ModCTANE的一致性检测模型构建方法,包括以下步骤:
步骤S1、在模型中确定分布式节点个数、支持度、水文数据等参数,使用Parallel_ModCTANE算法进行分布式并行条件函数依赖挖掘;
步骤S2、将步骤S1挖掘得到的候选条件函数依赖集以及经过专家经验得出的条件函数依赖集进行合并,进行条件函数依赖过滤;
步骤S3、根据步骤S2过滤得到的符合水情业务一致性检测需求的条件函数依赖集转换成对应的SQL语句;
步骤S4、使用基于主数据的联表不一致性检测算法LTMD分别进行单条件函数依赖检测以及多条件函数依赖检测。
进一步,所述步骤S1中根据水文数据属性进行候选CFDs分组,并根据分布式节点个数进行大数据水平切分,然后使用Parallel_ModCTANE算法进行分布式并行条件函数依赖挖掘;
其中,进行分布式并行条件函数依赖挖掘的具体步骤为:
步骤S1.1、确定候选条件函数依赖分组的公共属性;
步骤S1.2、对各个数据节点中的数据通过散列函数切分成n份,n为分布式子节点个数;
步骤S1.3、将切分之后的数据按照步骤S1.2后每一个元组切片中的元组的散列值进行重分布;
步骤S1.4、逐层生成左方集中包含公共属性的候选条件函数依赖;
步骤S1.5、使用Parallel_ModCTANE算法的剪枝原理对条件函数依赖挖掘的搜索空间进行剪枝。
进一步,所述步骤S2的详细内容为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210254599.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于流向的分布式水文模型并行计算方法
- 下一篇:一种新型发光层板灯