[发明专利]基于真实数据增强的多元时序数据填充方法在审
申请号: | 202011402595.5 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112465150A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 袁晓洁;欧阳嘉伟;周宝航;张莹;蔡祥睿 | 申请(专利权)人: | 南开大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 天津创智睿诚知识产权代理有限公司 12251 | 代理人: | 王海滨 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 真实 数据 增强 多元 时序 填充 方法 | ||
本发明公开了一种基于真实数据增强的多元时序数据缺失值填充方法,通过编码器压缩真实数据为数据表征向量,之后通过生成器结合真实数据增强从数据表征向量从生成完整的数据向量,最后通过判别器分辨真实数据与生成数据。整个模型通过生成对抗式训练优化编码器、生成器与判别器的损失,从而使生成器生成的数据足够接近真实数据以迷惑判别器,最后用生成器的生成数据填充多元时序数据中的缺失值。该方法以带编码器的生成对抗网络为框架,在模型的编码器、生成器、判别器中都运用了真实数据,使模型生成的数据更加真实可靠,可有效用于缺失值的填充。
技术领域
本发明属于人工智能技术领域,具体涉及一种基于真实数据增强的多元时序数据填充方法。
背景技术
多元时序数据普遍存在于现实世界的各类实际场景中,如医院定期归档的电子医疗记录、股票市场每日发生变动的股票价格、气象局时时监测的气候因素等等。这些数据都是在多个时刻记录,并且每个时刻的记录都包含多个元素的多元时序数据,全面保存了对应场景中数据的整体变化规律。分析相应场景的多元时序数据可以对场景问题进行全方位分析,并对事物发展趋势做出预测。
由于数据收集方式不规范、采集设备不稳定、传输媒介易丢失等问题,多元时序数据往往存在大量缺失值。这些缺失值的存在会影响多元时序数据的各类研究,并且许多分析模型受限于数据维度不规则的问题,难以直接对数据建模。同时缺失值的存在会导致数值信息不完整,同时存在信息有偏性,从而降低模型分析结果的准确性,严重的甚至造成分析结果的误判。因此解决多元时序数据中存在缺失值的问题是数据分析的必要前提。
填充是解决缺失值的有效方法,一般有推断和生成两种方式:推断是通过挖掘数据特征之间的关联关系,利用未缺失的数值综合推断出缺失部分的数值;生成是挖掘数据整体的分布规律,利用生成模型生成出符合原数据规律的数据用于填充。相比于推断的方式,生成更适用于含有大量缺失值的多元时序数据填充问题。并且生成模型可进一步用于生成新的未出现的数据以扩充数据集,帮助下游任务分析。
近些年来,许多深度学习的方法基于生成对抗网络,构造生成模型用于多元时序数据填充。这些方法通过生成对抗训练的方式不断提高生成器的性能,以实现准确有效的数据生成。发表于NeurIPS2018的工作“Multivariate Time Series ImputationwithGenerative Adversarial Networks”通过引入生成对抗网络WGAN实现对多元时序数据的填充。发表于IJCAI2019的工作“End-to-End Generative Adversarial NetworkforMultivariate Time Series Imputation”在NeurIPS2018工作的基础上加入编码器,优化了生成器生成数据的复杂度,原本需要长时间训练的噪声变量由编码器压缩真实数据得到,大量减少了训练时间。这两篇工作都在“基于生成对抗网络的时序数据缺失值填充算法研究”一文中有详细介绍。但这些方法都未考虑在生成器中引入真实数据,从而限制了生成模型的性能。生成器生成数据过程中,每一步的输入是由生成器自身生成的,不接收其他输入,这样会导致错误的输入持续影响后续数据的生成。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于真实数据增强的多元时序数据填充方法。该方法以带编码器的生成对抗网络为框架,在模型的编码器、生成器、判别器中都运用了真实数据,使模型生成的数据更加真实可靠,可有效用于缺失值的填充。
本发明是通过以下技术方案实现的:
一种基于真实数据增强的多元时序数据缺失值填充方法,包括以下步骤:
步骤1、对含有缺失值的多元时序数据做预处理操作,进行数据划分与正则化,进而生成真实数据矩阵与时间间隔矩阵;
步骤2、构造门循环填充单元对多元时序数据建模,并引入时间衰减机制应对时间间隔不规则的问题;
步骤3、基于第2步的门循环填充单元实现编码器,通过编码器压缩真实数据为低维数据表征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011402595.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种型钢打捆机及其使用方法
- 下一篇:一种血袋管理用抗金属抗液体电子标签
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置