[发明专利]基于自适应遗传算法的气象数据缺失值填补方法有效
申请号: | 201810512093.4 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108897719B | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 殷磊;孔宪光;马洪波;王冉 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06N3/12 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 陈宏社;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于自适应的遗传算法的气象数据填补方法,旨在提高对气象数据缺失值填补准确率,实现步骤为:设定气象数据集和缺失值;根据缺失值最近的前一相邻时刻和后一时刻相邻的数据,利用线性插值法,对缺失值进行估计;以与缺失值所在的属性相关性最大的属性为参照,对缺失值所在的属性数据进行分组,并在缺失值所在的组中计算缺失值所在的行与其他行相关性最大的相关系数,以构造缺失值与最大相关系数的方程,从而计算得到缺失值的估计值;建立遗传算法的目标函数,对线性插值法和相关性分类法的估计值加权的权重系数进行寻优,输出最优权重系数,从而得到缺失值的填补值。 | ||
搜索关键词: | 气象数据 填补 遗传算法 插值法 分类法 自适应遗传算法 最大相关系数 目标函数 权重系数 属性数据 相邻时刻 自适应 准确率 寻优 优权 加权 分组 输出 | ||
【主权项】:
1.一种基于自适应遗传算法的气象数据缺失值填补方法,其特征在于,包括如下步骤:(1)设定气象数据集和缺失值:设定气象数据集R为n个向量Y1,Y2,…,Yj,…Yn的s维数据,Yj代表数据属性j,Yj=(x1j,x2j,…,xij,…,xsj)T,xij代表在i时刻属性为Yj的缺失值,T为转置符号;(2)利用线性插值法计算缺失值xij的估计值xBA:将Yj中距离缺失值xij在i时刻最近的前一相邻时刻和后一相邻时刻的真实气象数据代入线性插值函数中,得到缺失值xij的估计值xBA;(3)利用相关性分类法计算缺失值xij的估计值xRC:(3a)以R中与Yj相关性最大的属性所包含的数据随时间变化的趋势并以缺失值xij相邻的极值点作为参照,对缺失值xij所在的列数据进行分组,得到多个列数据组;(3b)从多个列数据组中选取缺失值xij所在的列数据组,并根据相关性公式计算R中缺失值xij所在的列数据组中缺失值xij所在的行与其他行的相关系数,得到多个相关系数值;(3c)通过多个相关系数中最大的相关系数,构造缺失值xij与最大相关系数的方程,其表达式为:
其中,rmax为最大相关系数,i为气象数据所在的时刻,t为R中的数据属性,n为R中所有属性的总数,
为i时刻所有数据均值![]()
为l时刻所有数据的均值
xit为属性t在i时刻的气象数据,xlt为属性t在l时刻的气象数据;(3d)将数据集R中的真实气象数据代入缺失值xij与最大相关系数的方程中,计算缺失值xij的估计值xRC;(4)建立遗传算法的目标函数:(4a)计算缺失值xij的填补值y,计算公式为:y=ω1xBA+ω2xRC其中,xBA为利用线性插值法计算缺失值xij的估计值,xRC为利用相关性分类法计算缺失值xij的估计值,ω1、ω2分别为xBA和xRC的权值系数,0≤ω1≤1,ω1+ω2=1;(4b)根据缺失值xij的填补值y和缺失值xij所在的列数据组中的真实气象数据,建立遗传算法的目标函数,其表达式为:Y=min|y‑Sj|其中,min代表最小值符号,j为R中的属性,Sj为缺失值xij所在组的真实气象数据的集合,y为缺失值xij的填补值;(5)采用遗传算法计算缺失值xij的填补值:(5a)获取搜索最优xBA和xRC权值系数的初始群体:采用二进制基因编码方式表示随机产生的多个代表xBA和xRC的权值系数的个体,得到用于搜索最优xBA和xRC权值系数的初始群体;(5b)计算初始群体中每个个体适应度:计算初始群体中每个个体适应度,计算公式为:
其中,ζ为一个较小常数值,r代表初始群体中的每一个个体,xBA为利用线性插值法计算缺失值xij的估计值,xRC为利用相关性分类法计算缺失值xij的估计值,ω1、ω2分别为xBA和xRC的权值系数,Sj为缺失值xij所在组的真实气象数据的集合;(5c)从初始群体中选择概率大于K的个体:采用概率公式,通过初始群体中每个个体的适应度,计算每个个体在初始群体中出现的概率,并选取概率大于K的个体,得到新的群体,0<K<1;(5d)对新的群体中的个体基因进行交叉:对从新的群体中随机选取的两个个体基因的起始位置进行相互交叉,得到二进制基因编码方式表示的子代个体;(5e)对子代个体进行变异:对随机选取二进制基因编码方式表示的子代个体基因的变异位置的原有基因取反,得到二进制基因编码方式表示的最终子代;(5f)输出最优xBA和xRC的权值系数:将二进制基因编码方式表示的最终子代所代表的xBA和xRC的权值系数代入遗传算法的目标函数中,并根据遗传算法的目标函数的解是否趋于稳定判断遗传算法的目标函数是否收敛,若是,遗传算法的目标函数的解即最优权值系数ω1和权值系数ω2,并执行(5g),否则执行步骤(5b);(5g)计算缺失值xij的填补值:将最优权值系数ω1和权值系数ω2代入缺失值xij的填补值公式中,得到缺失值xij的填补值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810512093.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种岩体结构量化描述方法
- 下一篇:一种整流单元降功率的选型方法