[发明专利]一种轻量级的缺失时空数据的重构方法有效
申请号: | 201910135946.1 | 申请日: | 2019-02-25 |
公开(公告)号: | CN109902259B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 陆锋;程诗奋;彭澎 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F17/18;G06N3/04;G06N3/08 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 王雨桐 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时空数据 重构 建模 算法 矩阵 平均相关系数 神经网络模型 极限学习机 空间依赖性 时间依赖性 点状数据 高斯函数 估计结果 计算效率 空间维度 缺失数据 时间窗口 时间维度 时空整合 时空状态 数据抽象 学习算法 整体步骤 重构算法 自动选取 引入 时空维 整合 邻居 参考 预测 赋予 改进 保证 统一 | ||
本发明公开了一种轻量级的缺失时空数据的重构方法,整体步骤为:1、时空数据表示;把静态参考的点状数据和网状数据抽象为统一的时空状态矩阵来表示;2、时间维度插值;引入平均相关系数来自动选取时间窗口以提高SES算法建模时间依赖性的能力;3、空间维度插值;分别采用基于高斯函数的恒等距离和相关性距离为每个空间邻居赋予权重来提高IDW算法建模空间依赖性的能力;4、时空整合;引入极限学习机作为神经网络模型的学习算法,整合时空维度的估计结果得到缺失数据最终的预测值。本发明通过集成多个改进的轻量级模型,使得重构算法在保证计算效率的前提下,进一步提高海量缺失时空数据的重构精度。
技术领域
本发明涉及一种数据重构方法,尤其涉及一种轻量级的缺失时空数据的重构方法,属于时空数据挖掘技术领域。
背景技术
随着传感器网络、移动定位技术的不断普及和发展,数据采集与计算单元的外延不断扩展,地球科学经历了一场从数据贫乏领域到数据丰富领域的重大革命。这些数据在时间和空间维度不断增长,从而产生了海量的时空数据。尽管数据规模的逐渐扩大使得时空数据分析的输入信息越来越丰富,分析的结果也相应的更加准确,然而时空数据缺失依然是当前地理空间大数据采集与挖掘面临的普遍问题。
有多种原因可能导致时空数据的缺失问题。面向静态参考的点状数据的缺失主要来源于技术故障,例如,许多传感器连续监测周围的空气质量、水质情况,由于系统断电或者通讯故障等外部因素,使得在某一时间段内未采集到数据,从而导致数据缺失情况。面向静态参考的网状数据的缺失则与其时空分布密切相关。以城市交通数据为例,线圈传感器通过对城市路网持续观测,以获取道路网络的交通运行状态,例如道路片段的速度、流量;由于其设备昂贵,主要布设在城市主路(如高速公路),使得较低级别的路段的交通条件数据无法获取,从而导致数据缺失的问题。
对于静态参考的点状数据和网状数据的缺失问题,目前存在的解决方案可以粗略的分为机器学习方法和统计方法。前者通常需要构建求解的目标函数,采用梯度下降等数值计算方法迭代训练模型以达到最优的重构精度;而后者通常也需要逐点求解偏微分方程组来计算插值样本最优权重。这些方法由于建模的复杂性使得计算效率难以得到保证,并且随着时空数据不断地积累,重构精度和计算效率之间的矛盾会变得更加尖锐。因此,有必要探索新的策略来解决这一问题。
针对模型计算效率的提升,可以有两种改进方式:1)针对模型本身的改进,例如采用并行处理技术构造局部的插值模型或在模型计算过程中增加优化策略;2)构造新的方法,即采用经典的一个或多个轻量级的模型,例如经典的反向距离权重和简单指数平滑算法。考虑到并行处理技术需要集群计算环境,普通用户通常难以操作;而轻量级模型在插值过程中只需简单的确定权重函数,例如反向距离权重算法通过计算空间位置之间的反向距离来确定权重,其内存和计算时间可以满足实际应用的需求。但是,现有的轻量级模型通常建模过于简单,无法刻画复杂的地理过程,因此直接集成难以满足重构精度的要求。此外,集成策略的选取,对模型的训练时间和重构精度也会带来影响。下面将从空间插值算法、时间插值算法以及集成策略选择方面进一步分析。
在空间维度,反向距离权重算法的插值精度依赖合适的权重函数。它遵从地理学第一定律,利用观测样本空间位置之间的欧几里得距离来度量空间相关性,距离越近则越相似。然而,由于空间异质性的存在,不同的地理单元存在差异性的变化模式,因此单纯使用距离难以精确的刻画空间依赖性。此外,基于欧几里得的度量方式,通常只适用于具有确切地理位置的空间对象,如静态参考的点状数据。而针对静态参考的网状数据,如道路网络,由于每个道路片段的空间坐标难以确定,直接采用道路片段中点位置之间的距离通常会造成空间距离的不合理估计。因此,现有方法通常采用多种策略改进欧几里得距离来刻画空间相关性,例如采用道路网络距离、引入道路的通行时间等。然而,这些方法更多的追求重构精度上的提升,改进的距离度量算法由于计算复杂性依然难以满足效率方面的要求,并且距离的度量通常忽略了地理过程的时空模式的变化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910135946.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区块链的数据处理方法及设备
- 下一篇:三阶多智能体系统的能控性判定方法