[发明专利]一种基于DeepDive的自动数据清洗方法在审
申请号: | 201910077102.6 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109947752A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 李卫榜;李玲;谈文蓉;崔梦天 | 申请(专利权)人: | 西南民族大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于DeepDive的数据自动清洗方法,包括:(1)根据原始数据规模与设定阈值进行比较,规模超过阈值则随机采样得到采样数据;(2)从原始数据或者采样数据中学习得到属性之间贝叶斯网络;(3)将学习得到的贝叶斯网络转换成一阶谓词逻辑规则;(4)使用互信息理论计算一阶谓词逻辑规则的权重,将带权重的一阶谓词逻辑规则转换成马尔可夫逻辑网络;(5)基于马尔科夫逻辑网络生成DeepDive规则;(6)基于DeepDive进行错误/缺失数据的概率推理,得到元组的属性取不同值的概率;(7)将推理结果用于原始脏数据清洗。本发明能够用于无需现成的数据质量模式/规则和人工介入情况下的数据自动清洗,能够有效提高数据清洗的效率和质量。 | ||
搜索关键词: | 谓词逻辑 一阶 贝叶斯网络 采样数据 逻辑网络 原始数据 自动清洗 权重 清洗 规则转换 理论计算 缺失数据 数据清洗 随机采样 推理结果 质量模式 自动数据 互信息 脏数据 概率 推理 元组 学习 转换 | ||
【主权项】:
1.一种基于DeepDive的数据自动清洗方法,其特征在于步骤如下:步骤1:数据预处理,对包含脏数据的原始数据进行数据规模判断,如果数据规模超过阈值,对原始数据进行采样,得到采样后数据,否则维持原始数据;步骤2:数据模型学习,从步骤1得到的数据中学习属性之间的依赖关系,学习得到隐含的非绝对的或者相对较弱的依赖关系,并用贝叶斯网络的形式表示;步骤3:数据模型转换,定义一阶谓词逻辑谓词,包括“等价”、“匹配”谓词,将步骤1得到的属性之间的贝叶斯网络自动转换成一阶谓词逻辑规则,得到基于数据属性之间贝叶斯网络的一阶谓词逻辑规则集合;步骤4:使用互信息理论计算步骤2得到的基于数据属性之间贝叶斯网络的一阶谓词逻辑规则集合中每一条一阶谓词逻辑规则的权重,将带权重的一阶谓词逻辑规则转换成马尔可夫逻辑网络;步骤5:基于马尔科夫逻辑网络生成DeepDive规则,规则中布尔查询由马尔科夫逻辑网络中一阶谓词逻辑得到,规则权重为马尔科夫逻辑网络的权重;步骤6:基于DeepDive进行错误/缺失数据的概率推理,构建因子图作为推理的模型,使用吉布斯采样方法估计元组的属性取不同值的概率;步骤7:根据概率推理的结果,检测数据中包含的脏数据并对脏数据选择取值概率最大的值与设定的阈值进行比较,如果取值概率最大的值大于阈值,则进行自动修复,否则不做处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南民族大学,未经西南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910077102.6/,转载请声明来源钻瓜专利网。