[发明专利]一种基于深度学习的缺失值填充方法及系统有效
申请号: | 201710358297.2 | 申请日: | 2017-05-19 |
公开(公告)号: | CN107273429B | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 王宏志;王艺蒙;赵志强;孙旭冉 | 申请(专利权)人: | 哈工大大数据产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04;G06N3/08 |
代理公司: | 北京格允知识产权代理有限公司11609 | 代理人: | 周娇娇,谭辉 |
地址: | 150001 黑龙江省哈尔滨市经*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 缺失 填充 方法 系统 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于深度学习的缺失值填充方法及系统。
背景技术
自信息技术被广泛应用到各行业并超速推动这些新旧领域的发展以来,数据作为这一技术赖以生存的资源被不断地采集与挖掘,数据量正以惊人地速度膨胀起来。庞大的数据无疑增加了数据管理的难度。在现实世界中由于数据录入时出现遗漏、不正确的度量方法、收集条件的限制或者因违反约束条件而被删除等多方面因素都有可能导致产生数据缺失。缺失值不仅意味着信息的空白,更重要的是它会影响后续数据挖掘、统计分析等工作的进行。处理缺失值的常用方法包括删除包含缺失项的元祖、将缺失值作为特殊值处理或者进行缺失值填充。考虑到现实数据库缺失率都比较高,而且缺失模式多为随机模式,因此采用第三种处理方法更为合理。
目前已提出了一些针对不同数据的缺失值填充方法,这些方法主要基于统计学方法。如最大期望算法(EM)、重要性采样等。其中EM算法分为两步:第一步是计算期望(E),即根据参数填充缺失值;第二部是最大化(M),即在现有数据集下求得参数的最大似然值,如此交替迭代直至收敛。这一算法的复杂度取决于缺失变量个数及概率密度函数。另一常用的填充算法就是回归方法,包括线性回归、多元回归和逻辑回归等。这一类算法是根据数据之间的相关性用若干解释变量对响应变量进行拟合。另一种基于采样的近似贝叶斯方法是在已观测数据中有放回的抽取m个数据来填充m个缺失值。
上述最大期望算法用完整数据上建立的拟合模型来预测缺失变量的取值。拟合的优劣取决于自变量的选择和训练集的完备程度,填充效果极大程度地受到现有数据的影响。贝叶斯方法抽取已观测数据中数据来填充缺失值,方法虽然简单且基本维持了数据原始分布,但是它忽视了变量间的相关关系。且统计学方法需要事先进行显式提取特征,作为概率预测的基础,而数据之间的内在关系不好归纳。
发明内容
本发明要解决的技术问题在于,针对现有技术中的缺失值填充方法极大程度依赖已有数据的完整性,并且无法找寻数据之间深层关系的缺陷,提供了一种基于深度学习的缺失值填充方法及系统,利用深度神经网络能够深度挖掘数据内部及相互关系的特点,能同时提高填充精度和填充效率。
本发明第一方面,提供了一种基于深度学习的缺失值填充方法,包括以下步骤:
(1)对数据集进行预处理,将所述数据集分为完整数据子集和缺失数据子集,将所述完整数据子集中的数据分为训练样本集和测试样本集,随机删除测试样本集中部分数据作为缺失测试样本集;
(2)利用所述训练样本集对初步构建的卷积神经网络进行训练并保存,使用训练后得到的卷积神经网络对缺失测试样本集进行缺失值填充,并将填充结果与所述测试样本集比对,在不符合精度要求时调整所述卷积神经网络的网络结构并迭代前述训练和验证步骤直至满足精度要求;
(3)将所述完整数据子集输入步骤(2)得到的卷积神经网络,得到完善的卷积神经网络;
(4)将所述缺失数据子集输入步骤(3)得到的完善的卷积神经网络完成缺失值的填充。
在根据本发明所述的基于深度学习的缺失值填充方法中,所述步骤(1)包括:
(1-1)收集数据构建待处理数据集;
(1-2)对所述数据集进行分类,将完整无缺失的数据分出作为所述完整数据子集,将有缺失的数据分出作为所述缺少数据子集;
(1-3)从所述完整数据子集中随机选取60%~80%的数据作为训练样本集,其余作为所述测试样本集;
(1-4)在所述测试样本集中,随机删除部分数据后作为缺失测试样本集。
在根据本发明所述的基于深度学习的缺失值填充方法中,所述步骤(1-3)中从所述完整数据子集中随机选取70%的数据作为训练样本集,其余30%的数据作为测试样本集。
在根据本发明所述的基于深度学习的缺失值填充方法中,所述步骤(2)具体包括:
(2-1)构建卷积神经网络,由输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、全连接层和输出层组成,并初始化参数;
(2-2)将所述训练样本集输入所述卷积神经网络,卷积神经网路根据所述训练样本集中数据进行半监督学习,并自动更新权值,训练完成后保存网络结构及内部参数;
(2-3)将缺失测试样本集输入所述卷积神经网络,预测填充缺失值,将缺失测试样本集的填充结果与所述测试样本集比对,若准确率符合精度要求,则执行步骤(3),若准确率不符合精度要求,则返回步骤(2-1)对所述卷积神经网络的网络结构进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈工大大数据产业有限公司,未经哈工大大数据产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710358297.2/2.html,转载请声明来源钻瓜专利网。