[发明专利]一种基于K平面回归的缺失数据补全方法在审
申请号: | 201511025065.2 | 申请日: | 2015-12-30 |
公开(公告)号: | CN105469123A | 公开(公告)日: | 2016-04-06 |
发明(设计)人: | 袁玉波;阮彤;邱文强;汤伟;赵婷婷;高炬;殷亦超 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平面 回归 缺失 数据 方法 | ||
技术领域
本发明主要涉及数据挖掘技术,具体涉及一种基于K平面回归的缺失数据补全方法。
背景技术
在理想的情况下,数据集中每一条数据都应该是完整的。但是,在现实世界中普遍存在着不完整的、含噪声的数据。对于数据挖掘和模式识别领域,这些缺失的数据能造成非常大的影响。比如,这些缺失数据会影响从数据集中抽取模式的正确性和导出规则的准确性,这会导致错误的数据挖掘模型。并且对于现阶段绝大多数的数据挖掘算法都不具备分析和处理有缺失数据的数据集能力。若不对这些缺失数据进行分析和处理,并直接将其舍弃,这会造成大量信息的丢失,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。所以针对数据缺失情况进行分析和补全是一个必须而且有意义的事情。
当前的缺失数据补全方法大致可以分为以下几类:简单而又常见的填补方法是全局常量填补法和属性均值填补法。这两种方法主要是寻找一个常量或者对需要填补的属性取平均值来填补缺失的属性。在大多数情况下,这些方法同丢弃具有缺失数据的记录一样会生成有偏的结果。
第二类是单一填补法和多重插补法,单一填补法是将缺失值填补为与它最相似的一个对象的值,相似判定最常见的是使用相关系数矩阵来确定与缺失值所在属性最相关的属性,然后将所有对象按最相关属性值大小进行排序,将缺失值填补为排在它前面的对象值。与均值填补法相比,变量的标准差与填补前比较接近,但这种方法使用不便,比较耗时,并且系统的低估了方法。多重填补法用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析,最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。
第三类是采用模型对缺失数据进行预测的方法。该方法首先对输入的数据定义一个模型,然后基于该模型对未知参数进行极大似然估计。在该方法中,已经有不少专家做了探索。2012年,JiLiu针对可视化数据,提出一种对于缺失数据的张量估计方法。2014年,EmilEirola提出了一种针对缺失数据的混合高斯模型距离估计方法。2014年,ZhengbangLi提出针对数据块缺失混合回归分析。上述方法虽然取得了不错的效果,但是针对分段数据的补全准确率都有待提高。
发明内容
本发明的目的在于针对数据集的数据缺失情况,提出一种基于k平面回归的缺失数据补全方法。首先对数据进行聚类分析,将数据聚成K类,然后再对每一个类别进行回归分析,得到的输出就是补全得到的数据。
本发明的技术方案如下:
步骤1,首先进行数据预处理工作,对数据集进行缺失检测,选取未缺失的数据作为实验数据,并将需要补全的维度作为输出端,其余的维度作为输入端。
步骤2,进行参数初始化。
包括补全允许的误差、人为确定的参数、算法的迭代次数、平面个数K和维数约简后的维度等。
步骤3,使用PCA方法进行维度约减。
主要的目的是使用PCA来筛选回归变量,从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。
步骤4,对步骤3得到的新的变量集合进行归一化,减少噪声数据的干扰。并选取70%的数据集作为训练集,30%的数据集作为测试集。
步骤5,对训练集数据进行Kmeans聚类分析。
我们对训练集进行Kmeans聚类分析,将训练数据聚成K类。对于每一个类别,可以用相应的平面去拟合,每个类别的中心就可以看成是对应平面的初始几何中心μ。
步骤6,分别求每个平面的回归系数ω和每个平面的几何中心μ。
通过反复迭代误差函数求每个平面的几何中心μ和回归系数ω,然后根据回归系数和平面的几何中心重新确定每一个平面所包含的数据集S,并获得新的平面的中心。重复该步骤直到平面几何中心保持不变,回归系数保持稳定,即误差函数保持收敛。
步骤7,由步骤6获得回归系数ω和平面几何中心μ,并对测试数据进行回归预测,得到的结果即是我们预测补全得到的数据。
步骤8,对于得到的预测结果,我们定义了最大偏差、最小偏差、平均偏差和预测精度等这四个指标来评价该补全算法的性能。
实验结果表明我们的基于K平面回归的缺失数据补全算法性能良好。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1为本发明一种基于K平面回归的缺失数据补全方法的流程图;
图2为本发明实验中使用的数据集的介绍表格;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511025065.2/2.html,转载请声明来源钻瓜专利网。