[发明专利]一种基于深度学习的因果关系挖掘方法在审
申请号: | 201910242406.3 | 申请日: | 2019-03-28 |
公开(公告)号: | CN109993281A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 刘博;贺玺 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 因果关系 目标特征 备选 挖掘 测试集 学习 预处理 影响因素分析 数据归一化 海量数据 模型结构 缺失数据 时间序列 时序预测 最优模型 单变量 定量化 热编码 相减 预测 补充 记录 | ||
本发明公开了一种基于深度学习的因果关系挖掘方法,首先利用缺失数据补充、数据归一化、独热编码等技术对数据进行预处理,然后基于Keras深度学习框架利用LSTM进行目标特征的单变量时序预测,调整模型结构和一系列超参数得到最优模型,记录该模型在测试集上的R2分数,然后利用该模型对于所有备选特征进行预测,得到其在测试集上的R2分数,用这两个分数相减即为备选特征和目标特征的格兰杰因果关系分数,至此则得出一个定量化的数字用于描述备选特征和目标特征之间的格兰杰因果关系。这种方法适用于其他时间序列的影响因素分析问题上。综上所述,本发明提出的基于深度学习的格兰杰因果关系挖掘方法具有面向海量数据、更深度地挖掘、应用领域广泛地优势。
技术领域
本发明属于数据挖掘技术领域,尤其涉及到基于深度学习技术从多变量时间序列数据中挖掘格兰杰因果关系。
背景技术
时间序列数据是一个以常数为时间间隔进行观测得到的数据点集,主要特性有二,其一为依赖于时间,观测值之间有相关性,其二为除了有升降趋势之外,绝大多数时间序列还会有季节性趋势,即在特定的时间窗口内有特定的变化。随着数据存储成本大大降低,现实生活中产生的大量时间序列数据也被完整地记录下来,这种数据在金融、商品价格、交通等领域普遍存在。例如在空气质量领域,近年来大气能见度下降、空气质量变差,较多城市常伴有雾霾天气,对人们的生活和工作都产生了较大的负面影响,因此空气质量问题受到了政府和人们的高度关注。对于能见度与气象因素(体感温度、温度、气压等)的格兰杰因果关系挖掘可以揭示在这些特征之间的隐藏关系以及一些恶劣天气的出现规律,从而可以为大气污染治理提供一定的理论支持。因此挖掘多变量之间的格兰杰因果关系是非常具有实际意义的。
在因果关系挖掘领域,格兰杰因果是寻找时间序列数据中因果关系常用的方法。如图1所示,假设有一个时间序列X。它是由不同时间的采样点{x1,x2,x3,...,xn}共同构成的,现利用X的过去预测X的未来,比如用x1~xn-j预测xn-j+1~xn,预测的过程中产生一个误差δ1。同X一样,假设有时间序列Y,它形如X,由{y1,y2,y3,...,yn}共同组成,再利用X和Y共同的过去预测X的未来,比如用{x1~xn-j|y1~yn-j}去预测xn-j+1~xn,预测的过程产生一个新的误差δ2。如果δ1大于δ2,也就是说X和Y的联合预测误差小于X自身的预测误差,在这种情况下,称Y和X有格兰杰因果关系。
目前现有的多元时间序列因果关系分析主要集中在变量之间定性的格兰杰因果关系检验,一些基于格兰杰因果关系的研究也仅在线性回归的基础上来拟合数据并给出结果,这种方法对于现实生活中复杂的非线性数据无法做到高准确率的预测,具有很大的局限性。随着人工智能技术的发展,深度学习的应用也更加普遍,长短期记忆(Long Short-Term Memory,LSTM)是一种时间递归神经网络(RNN),适合被用于处理和预测时间序列中间隔和延迟非常长的重要事件,最早由Hochreiter & Schmidhuber于1997年提出,后经众多专家学者提炼和推广,现在因性能出色已经被广泛使用于时间序列预测等任务上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910242406.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的水下声源定位方法
- 下一篇:一种台风波及范围的预测方法