[发明专利]一种基于函数依赖和聚类的数据缺失值填补方法在审
申请号: | 202210393806.6 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114741457A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 吴怀广;李帅超;史雯隽;杜少卿 | 申请(专利权)人: | 郑州轻工业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215 |
代理公司: | 郑州裕晟知识产权代理事务所(特殊普通合伙) 41142 | 代理人: | 王宇飞 |
地址: | 450001 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 函数 依赖 数据 缺失 填补 方法 | ||
1.一种基于函数依赖和聚类的数据缺失值填补方法,其特征在于,包括以下过程:
S1、对待处理的数据集进行检查,如果数据集存在缺失值,自动将数据集分为完备数据子集Dcomplete和不完备数据子集Dmissing;
S2、对S1中得到的完备数据子集Dcomplete进行处理,利用HYFD算法获取函数依赖集合FDs,并根据LHS中涉及的属性的个数对函数依赖集合FDs进行升序排序;
S3、判断不完备数据子集Dmissing中当前的不完备元组Tmissing中的缺失属性是否存在于函数依赖集合FDs的RHS集合中;
S4、基于S3的判断结果,如果缺失属性存在于函数依赖集合FDs的RHS集合中,从函数依赖集合FDs中筛选出RHS集合中含有缺失属性的函数依赖,然后利用每一个函数依赖从S1中得到的完备数据子集Dcomplete中寻找与不完备元组Tmissing相匹配的完备元组Tcomplete,利用完备元组Tcomplete中对应的缺失属性的值进行填补;
S5、基于S3的判断结果,如果缺失属性不存在于函数依赖集合FDs的RHS集合中,需要采用改进的AP聚类算法对S1中得到的完备数据子集Dcomplete进行聚类处理,得到聚类簇;
S6、根据相似度距离S(Ri,Rj)计算不完备元组Tmissing与每一个聚类簇中心的相似度距离,将不完备元组Tmissing分配到与之最相近的聚类簇中,然后在该聚类簇中利用KNN算法和相似性计算公式s(i,k)寻找到与不完备元组Tmissing最邻近的完备元组Tcomplete,利用最邻近的完备元组Tcomplete对缺失值进行填补;
S7、对经过填补后的数据集再次进行检查,如果填补后的数据集中含有缺失值重复S1-S6,直至填补后的数据集中不含有缺失值。
2.根据权利要求1所述的基于函数依赖和聚类的数据缺失值填补方法,其特征在于,所述S5中聚类处理的具体过程为:
S51、计算出完备数据子集Dcomplete中数据点之间的相似性s(i,k)以组成相似性矩阵S;
S52、计算出完备数据子集Dcomplete中数据点之间的代表信息r(i,k)和适选信息a(i,k),将a(i,k)初始化为0,将r(i,k)初始化为数据点i与数据点k之间的相似性s(i,k)和数据点i与其他数据点之间的最大相似性的差值;
S53、在后续的迭代过程中对a(i,k)和r(i,k)进行不断地更新,达到某指定的阈值时终止迭代过程,得到最终的聚类簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学,未经郑州轻工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210393806.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米银抗菌洗手液及其制备方法
- 下一篇:一种便携式甘蔗田间测产系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置