[发明专利]一种基于注意力机制的时序数据缺失值插补方法有效

申请号：	202110533285.5	申请日：	2021-05-17
公开（公告）号：	CN113298131B	公开（公告）日：	2022-08-05
发明（设计）人：	季薇;金博斌;李云	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制时序数据缺失值插补方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于注意力机制的时序数据缺失值的插补方法，其包括：获取有缺失值的时序数据；将有缺失值的时序数据输入训练后的生成器，获取插补后的时序数据；其中，生成器的训练包括：将有缺失值的时序数据输入生成器，基于注意力机制获取完整的时序数据；将有缺失值的时序数据和完整的时序数据输入判别器，基于损失函数，对判别器和生成器进行对抗式训练。本发明能够生成符合原始数据集分布的新时序数据。通过试用注意力机制可以增强特征中重要特征的表达能力，减少不重要特征的表达能力，同时可以提到处理效率。通过上述方法，我们就能提升时间序列缺失值插补的准确率以及提高插补效率。

技术领域

本发明涉及一种基于注意力机制的时序数据缺失值插补方法，属于计算机科学技术领域。

背景技术

近年来，随着人工智能技术的发展，时序数据在人类生活中出现的频率也越来越高。时序数据是将同一统计指标的数值按发生的时间先后顺序排列而成的数列，反映了事物及行为随着时间的变化而发生的状态变化和发展规律。常见的时间序列包括一些医疗数据，如一天中糖尿病人的血糖值随时间发生的变化，还包括网站访问量、道路交通量等在不同时间的变化等。

由于数据采集设备的不稳定性或者被干扰等原因，常常导致采集到的数据发生缺失。时间序列数据的缺失会给数据的分析建模和实际应用造成一定的困难。例如，根据历史天气状况预测未来的天气情况时，如果历史数据有缺失，将会影响到预测的准确率。因此，需要寻找一种准确有效的方法对不完整的数据集进行缺失值插补，以得到完整的能无限接近真实数据的数据集。

近年来，深度学习在人工智能领域取得了巨大的成功，并迅速成为人工智能领域的主导技术。深度学习预测模型需要基于完整的数据集开展网络训练以及参数优化，以学习数据的历史变化规律。数据集缺失的部分往往隐含着数据的历史变化规律，由于这部分的缺失将导致模型无法被完全驱动，最终训练得到的参数也会与最佳参数有较大的差异。因此，时间序列数据缺失值的有效处理技术具有很好的研究意义和实际用途。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于注意力机制的时序数据缺失值插补方法，解决传统的生成对抗网络结构中，生成器的输入是一个随机向量，直接用它来进行时序数据缺失值的填充，需要耗费大量的时间来为每条时序数据寻找最优的输入向量，从而导致时序数据缺失值的插补效率大大降低的技术问题。

为达到上述目的，本发明是采用下述技术方案实现的：

本发明提供了一种基于注意力机制的时序数据缺失值插补方法，包括以下步骤：

获取有缺失值的时序数据；

将有缺失值的时序数据输入训练后的生成器，获取插补后的时序数据；

其中，生成器的训练包括：

将有缺失值的时序数据输入生成器，基于注意力机制获取完整的时序数据；

将有缺失值的时序数据和完整的时序数据输入判别器，基于损失函数，对判别器和生成器进行对抗式训练。

进一步的，所述生成器为包括编码器单元和解码器单元的降噪自编码器。

进一步的，所述获取完整的时序数据包括：

编码器单元根据输入的预设长度为m且有缺失值的原始时序数据x和随机噪声向量η，输出原始时序数据x的隐藏向量H；