[发明专利]基于线性自学习网络的缺失值填补方法、存储介质及系统在审
申请号: | 202011052819.4 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112085125A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 赵国帅;白凌南;李子烁;钱学明 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06N5/02 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 线性 自学习 网络 缺失 填补 方法 存储 介质 系统 | ||
本发明公开了一种基于线性自学习网络的缺失值填补方法、存储介质及系统,获取没有缺失值的原始时序数据,对原始时序数据进行预处理,以随机概率构造缺失数据集,将新生成的缺失数据集和相对应的原始数据作为新的数据集;构建基于线性自学习网络模型,利用生成的新数据集进行训练;利用训练后的基于线性自学习网络模型,使用反向传播算法进行缺失值填补,将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中,提高下游分类和回归任务性能。本发明利用线性自学习网络能够深度挖掘数据内部及相互关系的特点,能同时提高填充精度和填充效率。
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于线性自学习网络的缺失值填补方法、存储介质及系统。
背景技术
缺失值的现象已广泛出现在现实世界的数据集中,这降低了数据集的质量和可靠性。由于各种原因,例如硬件问题,紧急情况,人为错误等,在许多实际情况下,不可避免的会出现缺失值的现象。一种办法是直接删除不完整的记录,然而这将丢失很多有用的信息。因此,如何填补缺失值已成为一个重要问题。此任务对许多算法至关重要,例如机器学习,深度学习和数据挖掘,不完整数据集中的缺失值会对他们造成很严重的影响。
在实用的数据库中,数据值缺失的情况是不可避免的。造成数据缺失的原因是多方面的,主要有以下几种:一,有些信息被遗漏,可能是因为输入时认为不重要,忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、一些人为因素等原因而丢失了;二,有些信息暂时无法获取,例如在申请表数据中,对某些问题的反映依赖于其他问题;三,有些对象的某个或某些属性是不可用的即对这个对象来说,该属性是不存在的,等等。对于数据挖掘来说,缺失值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;其次,系统中所表现出的不确定性更加显著;并且,包含缺失值的数据使挖掘过程陷入混乱,导致不可靠的输出。数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,数据的缺失值需要通过专门的方法进行推导、补全等,以减少数据挖掘算法与实际应用间的差距。
近年来,已经有许多缺失值填补算法提出。这些方法大多利用缺失值的完整近邻对缺失值进行填补。近邻数据元组越完整,最终填补的准确性越高。当不完整数据元组可以作为缺失值的近邻数据时,它们将忽视这些不完整的数据元组中的信息。缺失值现象通常发生在现实世界的数据集中,尤其是在时间连续数据集中。在时间连续数据集中,不完整数据元组的近邻取决于它们的时间关系。如此一来,缺失数据的近邻不可避免地包含其他缺失值。另外,聚集缺失值现象导致一些不完整的数据元组有很少甚至没有完整的近邻。以上介绍的已有方法均利用与缺失数据元组较为相似的完整近邻对缺失值进行填补。然而在聚簇缺失情景下,已有方法均面临缺失数据元组的完整近邻不足的弊端,因为与其较为相似的数据元组也包含缺失值,不能作为其完整近邻用于缺失值的填补。此外已有方法针对一条缺失数据元组,只在数据空间中搜索完整近邻,没有考虑已经被填补的缺失近邻。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于线性自学习网络的缺失值填补方法、存储介质及系统,利用线性自学习网络能够深度挖掘数据内部及相互关系的特点,同时提高填充精度和填充效率。
本发明采用以下技术方案:
基于线性自学习网络的缺失值填补方法,包括以下步骤:
S1、获取没有缺失值的原始时序数据,对原始时序数据进行预处理,以随机概率构造缺失数据集,将新生成的缺失数据集和相对应的原始数据作为新的数据集;
S2、构建基于线性自学习网络模型,利用步骤S1生成的新数据集进行训练;
S3、利用步骤S2训练后的基于线性自学习网络模型,使用反向传播算法进行缺失值填补,将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011052819.4/2.html,转载请声明来源钻瓜专利网。