[发明专利]一种基于函数依赖的数据清洗方法有效
申请号: | 201510742638.7 | 申请日: | 2015-11-04 |
公开(公告)号: | CN105447079B | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 莫益军;曾志华;谭辉 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于函数依赖的数据清洗方法,其特征在于,包括:对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;对于数据转换后的原始数据,提取其属性的自依赖函数特征;对于数据转换后的原始数据,提取其属性之间的互依赖函数;根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据,判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动。本发明能够解决大数据中“脏数据”问题,为后续的大数据分析挖掘提供高质量的数据。 | ||
搜索关键词: | 一种 基于 函数 依赖 数据 清洗 方法 | ||
【主权项】:
1.一种基于函数依赖的数据清洗方法,其特征在于,包括以下步骤:(1)对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;(2)对于数据转换后的原始数据,提取其属性的自依赖函数特征;(3)对于数据转换后的原始数据,提取其属性之间的互依赖函数;(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据;(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动;若采用互依赖函数清洗,则将不符合条件的样本根据互依赖函数确定的相关函数,以已校准的属性为基础对另一属性进行校准恢复;其中,步骤(2)包括以下子步骤:(2‑1)任意选择某属性列并连续抽取该列中的N个值,以形成新的序列Xi;(2‑2)将序列Xi移动1位,以形成序列
(2‑3)获得序列Xi与
的差值序列
并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为线性自依赖函数,并跳转至步骤(4),否则进入步骤(2‑4);(2‑4)将差值序列
移动1位,形成序列
求其差值序列
并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为二次曲线自依赖函数,并跳转至步骤(4),否则进入步骤(2‑5);(2‑5)迭代执行步骤(2‑4),迭代次数为n,若n≤5,且80%以上的样本差值为常数或0,则自依赖函数为f(x)=axn+bxn‑1+...+αx+β,并跳转至步骤(4),否则进入步骤(2‑6);(2‑6)求序列Xi的最大值maxXi和最小值minXi,并以此为基础对Xi进行归一化处理,从而将Xi转换为
(2‑7)以
为步进长度,统计属性样本出现在10个区间的概率分布,概率密度函数,并判断10个区间中所有区间的概率密度是否低于门限值ε=10‑2,若是则认为该属性样本的该部分区间数需被清洗,然后进入步骤(4),否则进入步骤(3);步骤(3)包括以下子步骤:(3‑1)抽取任两属性列X和Y,提取两列的概率密度函数f(x)和f(y),判断两者概率密度分布趋势是否趋同,若趋同则认为此两属性为相似属性f(x)Simf(y),并进入步骤(4),否则进入步骤(3‑2);(3‑2)计算列X和Y的Pearson相关系数p(x,y)和Spearman相关系数s(x,y),判断是否满足条件0.5≤|p(x,y)ors(x,y)|≤1,若满足则表明两者强相关,可互相进行清洗,直接进入步骤(4),否则进入步骤(3‑3);(3‑3)对属性列X、Y,分别采用加、减、乘、除算术算子形成新的列Z,针对列Z,采用步骤(2)所述方式建立自依赖函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510742638.7/,转载请声明来源钻瓜专利网。
- 上一篇:文件存储方法及实现该存储方法的服务器
- 下一篇:一种数据库操作的方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置