[发明专利]基于自适应遗传算法的气象数据缺失值填补方法有效
申请号: | 201810512093.4 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108897719B | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 殷磊;孔宪光;马洪波;王冉 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06N3/12 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 陈宏社;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 气象数据 填补 遗传算法 插值法 分类法 自适应遗传算法 最大相关系数 目标函数 权重系数 属性数据 相邻时刻 自适应 准确率 寻优 优权 加权 分组 输出 | ||
本发明提出了一种基于自适应的遗传算法的气象数据填补方法,旨在提高对气象数据缺失值填补准确率,实现步骤为:设定气象数据集和缺失值;根据缺失值最近的前一相邻时刻和后一时刻相邻的数据,利用线性插值法,对缺失值进行估计;以与缺失值所在的属性相关性最大的属性为参照,对缺失值所在的属性数据进行分组,并在缺失值所在的组中计算缺失值所在的行与其他行相关性最大的相关系数,以构造缺失值与最大相关系数的方程,从而计算得到缺失值的估计值;建立遗传算法的目标函数,对线性插值法和相关性分类法的估计值加权的权重系数进行寻优,输出最优权重系数,从而得到缺失值的填补值。
技术领域
本发明属于数据处理技术领域,涉及一种气象数据缺失值填补方法,具体涉及一种基于自适应遗传算法的气象数据的填补方法,可用于气象数据挖掘领域。
背景技术
气象数据通常是从气象站采集而来,然而在自动气象站架设的区域,一方面由于电磁波或各类观测探测仪本身的原因或外界干扰的因素,以及自动气象站所处恶劣环境改变的不可预见性;另一方面,一些地方地形情况特殊以及环境气候恶劣,使得气象站点分布多而广、维护保障的人员数量较少,区域自动气象站的维护保障工作难以进行;除此之外,不准确的测量方式、收集条件的限制以及人工录入的遗漏都有可能导致自动气象站运行过程中采集的数据不可避免的将会出现缺失。大量的数据缺失对后期的数据统计、数据挖掘等工作都会产生不利的影响。例如,缺失值可能会直接影响新发现模式的准确性,导致错误的挖掘模型;缺失值的未知性,也会对正常的数据分布形成干扰,降低挖掘能力;数据值的缺失导致难以对数据进行合理分类,无法准确获取统计分析结果,从而影响最终决策。
为了提供高质量的完整数据集,对数据集中的缺失值进行及时准确的填补,对于今后利用气象数据进行挖掘技术研究和分析气象数据的潜在规律,以及进一步完成对气象数据的预测等具有重要的科学研究意义和实用价值,并且也是数据处理领域一个值得研究和重视的问题。
目前针对气象数据缺失值填补,主要分为单一填补和多重填补两大类,单一填补主要有均值、中位数和众数填补方法,该类方法计算简单,但用单一数值填补大大降低了数据的随机性,损失了大量的数据信息。多重填补方法主要有热卡填补、邻近数据填补、空间插补、基于贝叶斯等方法,每一种方法都有其优缺点,根据具体数据对象的类型,方法的填补效果也不同,然而,没有任何一种缺失值填补方法能够有效解决所有类型的数据缺失问题。
为解决上述问题,在申请公布号为CN104280791A,名称为“一种气象数据质量控制处理方法及系统”的专利申请,公开了一种气象数据质量控制处理方法,所述的方法首先接收原始气象数据,然后判断原始数据中是否存在缺测值,若原始数据中存在异常数据,则对其进行填充处理并输出。其中针对气象数据的缺失值填补时,该方法首先统计预设时间段内的气象数据中存在缺失值的个数,当存在缺失值的个数小于设定值时,且缺失值前后两个数据不为缺失值时,采用缺失值前后数据的平均值来填充缺失值的气象数据,当缺失值前面或后面为缺失值时,通过预设时间段内的全部数据的平均值来填充缺失值的气象数据。该发明虽然通过判断缺失值前后的数据是否为缺失值,来决定采用哪种缺失值填补方法来对气象数据进行填补,提高了气象数据的准确性,但是该方法仍然存在不足之处:(1)在对缺失值进行填充时,需先预设时间段并判断缺失值的个数,才能对缺失值进行填充,计算效率较低;(2)当气象数据缺失值前后数据存在但气象数据变化为显著时,直接采用缺失值前后数据的均值,或气象数据连续缺失时,直接采用预设时间段内所有的气象数据均值进行填补,显然填补方法过于简单,填补准确性低。
发明内容
本发明的目的在于针对上述现有技术存在的缺陷,提出了一种基于自适应遗传算法的气象数据缺失值填补方法,旨在提高气象数据缺失值填补的准确率。
本发明的技术思路是:针对气象数据中的缺失值,首先采用线性插值法和相关性分类法对缺失值进行估计。然后,对利用线性插值法和相关性分类法计算得到缺失值的估计值进行加权处理,并采用自适应遗传算法对权值系数进行优化,以实现对气象数据的缺失值填补。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810512093.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种岩体结构量化描述方法
- 下一篇:一种整流单元降功率的选型方法