[发明专利]一种基于函数依赖和聚类的数据缺失值填补方法在审
申请号: | 202210393806.6 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114741457A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 吴怀广;李帅超;史雯隽;杜少卿 | 申请(专利权)人: | 郑州轻工业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215 |
代理公司: | 郑州裕晟知识产权代理事务所(特殊普通合伙) 41142 | 代理人: | 王宇飞 |
地址: | 450001 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 函数 依赖 数据 缺失 填补 方法 | ||
本发明提供一种基于函数依赖和聚类的数据缺失值填补方法,包括:对待处理的数据集进行检查,获得完备数据子集和不完备数据子集;采用HYFD算法从完备数据子集中获得函数依赖集合,并对函数依赖进行升序排序;判断不完备元组中的缺失属性是否存在于函数依赖集合的RHS集合中;如果缺失属性存在于RHS集合中,利用完备数据子集中的完备元组对不完备元组进行填补;如果缺失属性不存在于RHS集中,通过改进的AP聚类算法对完备数据子集进行聚类处理的聚类簇;利用KNN算法对不完备元组进行处理,最后利用完备元组进行填补;本发明有效提高缺失值填补算法的准确性。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于函数依赖和聚类的数据缺失值填补方法。
背景技术
随着机器学习和深度学习技术的不断发展,业界当中的各个领域都应用了大数据技术,根据数据分析和数据预测的结果执行一些决策,对高质量数据的需求程度在不断地增加。然而在现实生活中,由于工业设备的监测出错、自然条件的影响、人工误操作等一系列原因导致采集到的数据中存在大量的缺失值,这种情况发生在各个领域当中,如医疗、金融、电力等等。数据的缺失会严重影响整个数据集的数据质量,使得数据分析的结果和训练得到的模型产生一定程度的偏差,从而对最终的决策产生影响因此,需要采用一种缺失值填补技术对缺失数据进行处理,提升数据质量,从而维护最终决策的正确性。
传统的缺失值方法主要是基于统计学的方法,对原始数据进行统计分析,利用统计的结果对缺失值进行估计,例如基于均值或者线性回归进行缺失值填补。基于统计学的填补算法实现简单,对特定分布的数据集具有良好的填补效果,但不能捕获更深层次属性之间的相关信息,不适用于不规则分布的数据集。
随着机器学习的出现,一些基于机器学习的缺失值填补方法被提出,这些方法采用机器学习对数据进行处理,训练一些机器学习模型,然后利用模型对缺失值进行预测。相比较于传统的基于统计的缺失值填补方法,基于机器学习的缺失值填补方法可以捕获更深层次的属性之间的相关信息,相对来说可以应用于一些无规则数据分布的数据集。
随着这个问题的不断研究,单一的机器学习方法只能从数据当中捕捉部分的数据分布信息,为了进一步提升缺失值填补的精度,一些将机器学习方法与其他方法,如统计方法之类的技术相结合混合缺失值填补算法被提出,这些混合的缺失值填补方法可以在不同分布的数据集当中展现出不错的填补性能。但是在捕获属性之间的依赖关系方面,混合缺失值填补方法还有可以提高的地方。
发明内容
本发明的目的是克服现有技术的不足而提供一种有效的一种基于函数依赖和聚类的数据缺失值填补方法。
本发明的技术方案如下:
一种基于函数依赖和聚类的数据缺失值填补方法,包括以下过程:
S1、对待处理的数据集进行检查,如果数据集存在缺失值,自动将数据集分为完备数据子集Dcomplete和不完备数据子集Dmissing;
S2、对S1中得到的完备数据子集Dcomplete进行处理,利用HYFD算法(混合函数依赖发现算法)获取函数依赖集合FDs,并根据LHS集合(左部属性集合)中涉及的属性的个数对函数依赖集合FDs进行升序排序;
S3、判断不完备数据子集Dmissing中当前的不完备元组Tmissing中的缺失属性是否存在于函数依赖集合FDs的RHS集合(右部属性集合)中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学,未经郑州轻工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210393806.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米银抗菌洗手液及其制备方法
- 下一篇:一种便携式甘蔗田间测产系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置