[发明专利]一种基于函数依赖和聚类的数据缺失值填补方法在审

专利信息
申请号: 202210393806.6 申请日: 2022-04-14
公开(公告)号: CN114741457A 公开(公告)日: 2022-07-12
发明(设计)人: 吴怀广;李帅超;史雯隽;杜少卿 申请(专利权)人: 郑州轻工业大学
主分类号: G06F16/28 分类号: G06F16/28;G06F16/215
代理公司: 郑州裕晟知识产权代理事务所(特殊普通合伙) 41142 代理人: 王宇飞
地址: 450001 河南省郑州*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 函数 依赖 数据 缺失 填补 方法
【说明书】:

发明提供一种基于函数依赖和聚类的数据缺失值填补方法,包括:对待处理的数据集进行检查,获得完备数据子集和不完备数据子集;采用HYFD算法从完备数据子集中获得函数依赖集合,并对函数依赖进行升序排序;判断不完备元组中的缺失属性是否存在于函数依赖集合的RHS集合中;如果缺失属性存在于RHS集合中,利用完备数据子集中的完备元组对不完备元组进行填补;如果缺失属性不存在于RHS集中,通过改进的AP聚类算法对完备数据子集进行聚类处理的聚类簇;利用KNN算法对不完备元组进行处理,最后利用完备元组进行填补;本发明有效提高缺失值填补算法的准确性。

技术领域

本发明涉及数据处理技术领域,具体涉及一种基于函数依赖和聚类的数据缺失值填补方法。

背景技术

随着机器学习和深度学习技术的不断发展,业界当中的各个领域都应用了大数据技术,根据数据分析和数据预测的结果执行一些决策,对高质量数据的需求程度在不断地增加。然而在现实生活中,由于工业设备的监测出错、自然条件的影响、人工误操作等一系列原因导致采集到的数据中存在大量的缺失值,这种情况发生在各个领域当中,如医疗、金融、电力等等。数据的缺失会严重影响整个数据集的数据质量,使得数据分析的结果和训练得到的模型产生一定程度的偏差,从而对最终的决策产生影响因此,需要采用一种缺失值填补技术对缺失数据进行处理,提升数据质量,从而维护最终决策的正确性。

传统的缺失值方法主要是基于统计学的方法,对原始数据进行统计分析,利用统计的结果对缺失值进行估计,例如基于均值或者线性回归进行缺失值填补。基于统计学的填补算法实现简单,对特定分布的数据集具有良好的填补效果,但不能捕获更深层次属性之间的相关信息,不适用于不规则分布的数据集。

随着机器学习的出现,一些基于机器学习的缺失值填补方法被提出,这些方法采用机器学习对数据进行处理,训练一些机器学习模型,然后利用模型对缺失值进行预测。相比较于传统的基于统计的缺失值填补方法,基于机器学习的缺失值填补方法可以捕获更深层次的属性之间的相关信息,相对来说可以应用于一些无规则数据分布的数据集。

随着这个问题的不断研究,单一的机器学习方法只能从数据当中捕捉部分的数据分布信息,为了进一步提升缺失值填补的精度,一些将机器学习方法与其他方法,如统计方法之类的技术相结合混合缺失值填补算法被提出,这些混合的缺失值填补方法可以在不同分布的数据集当中展现出不错的填补性能。但是在捕获属性之间的依赖关系方面,混合缺失值填补方法还有可以提高的地方。

发明内容

本发明的目的是克服现有技术的不足而提供一种有效的一种基于函数依赖和聚类的数据缺失值填补方法。

本发明的技术方案如下:

一种基于函数依赖和聚类的数据缺失值填补方法,包括以下过程:

S1、对待处理的数据集进行检查,如果数据集存在缺失值,自动将数据集分为完备数据子集Dcomplete和不完备数据子集Dmissing

S2、对S1中得到的完备数据子集Dcomplete进行处理,利用HYFD算法(混合函数依赖发现算法)获取函数依赖集合FDs,并根据LHS集合(左部属性集合)中涉及的属性的个数对函数依赖集合FDs进行升序排序;

S3、判断不完备数据子集Dmissing中当前的不完备元组Tmissing中的缺失属性是否存在于函数依赖集合FDs的RHS集合(右部属性集合)中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学,未经郑州轻工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210393806.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top