[发明专利]一种基于函数依赖的数据清洗方法有效

专利信息
申请号: 201510742638.7 申请日: 2015-11-04
公开(公告)号: CN105447079B 公开(公告)日: 2018-11-02
发明(设计)人: 莫益军;曾志华;谭辉 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 华中科技大学专利中心 42201 代理人: 朱仁玲
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于函数依赖的数据清洗方法,其特征在于,包括:对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;对于数据转换后的原始数据,提取其属性的自依赖函数特征;对于数据转换后的原始数据,提取其属性之间的互依赖函数;根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据,判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动。本发明能够解决大数据中“脏数据”问题,为后续的大数据分析挖掘提供高质量的数据。
搜索关键词: 一种 基于 函数 依赖 数据 清洗 方法
【主权项】:
1.一种基于函数依赖的数据清洗方法,其特征在于,包括以下步骤:(1)对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;(2)对于数据转换后的原始数据,提取其属性的自依赖函数特征;(3)对于数据转换后的原始数据,提取其属性之间的互依赖函数;(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据;(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动;若采用互依赖函数清洗,则将不符合条件的样本根据互依赖函数确定的相关函数,以已校准的属性为基础对另一属性进行校准恢复;其中,步骤(2)包括以下子步骤:(2‑1)任意选择某属性列并连续抽取该列中的N个值,以形成新的序列Xi;(2‑2)将序列Xi移动1位,以形成序列(2‑3)获得序列Xi的差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为线性自依赖函数,并跳转至步骤(4),否则进入步骤(2‑4);(2‑4)将差值序列移动1位,形成序列求其差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为二次曲线自依赖函数,并跳转至步骤(4),否则进入步骤(2‑5);(2‑5)迭代执行步骤(2‑4),迭代次数为n,若n≤5,且80%以上的样本差值为常数或0,则自依赖函数为f(x)=axn+bxn‑1+...+αx+β,并跳转至步骤(4),否则进入步骤(2‑6);(2‑6)求序列Xi的最大值maxXi和最小值minXi,并以此为基础对Xi进行归一化处理,从而将Xi转换为(2‑7)以为步进长度,统计属性样本出现在10个区间的概率分布,概率密度函数,并判断10个区间中所有区间的概率密度是否低于门限值ε=10‑2,若是则认为该属性样本的该部分区间数需被清洗,然后进入步骤(4),否则进入步骤(3);步骤(3)包括以下子步骤:(3‑1)抽取任两属性列X和Y,提取两列的概率密度函数f(x)和f(y),判断两者概率密度分布趋势是否趋同,若趋同则认为此两属性为相似属性f(x)Simf(y),并进入步骤(4),否则进入步骤(3‑2);(3‑2)计算列X和Y的Pearson相关系数p(x,y)和Spearman相关系数s(x,y),判断是否满足条件0.5≤|p(x,y)ors(x,y)|≤1,若满足则表明两者强相关,可互相进行清洗,直接进入步骤(4),否则进入步骤(3‑3);(3‑3)对属性列X、Y,分别采用加、减、乘、除算术算子形成新的列Z,针对列Z,采用步骤(2)所述方式建立自依赖函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510742638.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code