[发明专利]NRIET基于机器学习的大雾预报方法在审
申请号: | 201810199821.0 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108375808A | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 吴雪 | 申请(专利权)人: | 南京恩瑞特实业有限公司 |
主分类号: | G01W1/10 | 分类号: | G01W1/10 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
地址: | 210039 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于机器 预报模型 可用 预报 机器学习模型 实时观测数据 迭代训练 关系模型 集成学习 交叉验证 模型参数 模型算法 模型训练 模型预报 业务预报 影响因子 预报结果 预报区域 重要影响 决策树 训练集 验证集 样本集 实况 筛选 学习 机场 分析 | ||
1.一种NRIET基于机器学习的大雾预报方法,其特征在于,包括以下内容:
1)数据收集
收集预报区域及周边可用于模型训练和业务预报的历史实况和预报资料;
2)数据分析和预处理
对收集到的数据进行分析,并处理为机器学习模型训练可用的样本集;
3)机器学习算法选取
选用基于决策树的模型xgboost,筛选机场大雾生成的重要影响因子,建立大雾和影响因子之间的关系模型,从而对大雾的生消和变化过程进行短时临近预报;
3)模型训练
使用最佳机器学习算法,在训练集和验证集上进行训练;
4)模型调参
依照调参顺序,反复对模型参数进行调整,直至得到性能最优预报模型;
5)预报评估
在测试集上对预报模型进行评估,如果性能未达到最优反复进行5);
6)集成学习
使用集成学习方法,对模型进行交叉验证和迭代训练,以进一步提升模型预报性能;
7)预报评估
在测试集上对预报模型进行评估,如果性能未达到最优反复进行8);
8)业务预报
将实时观测数据带入预报模型,得到大雾预报结果。
2.根据权利要求1所述的NRIET基于机器学习的大雾预报方法,其特征在于,所述的数据收集包括以下内容:
收集预报区域及周边地区的历史实况和预报资料;历史实况资料包括气象站点历史观测资料、自建观测站点历史观测资料、历史卫星观测资料,要求同类型观测资料在业务运行过程中可以实时获取;历史预报资料包括历史数值预报资料,要求数值预报模式具有一定连贯性,并且在业务运行中可实时获取;历史资料需要至少三年稳定连续的数据,包括预报区域当地及周边地区的风速风向、气温、气压、湿度、降水量、能见度。
3.根据权利要求1所述的NRIET基于机器学习的大雾预报方法,其特征在于,所述的数据分析和数据预处理包括以下内容:
数据分析和预处理分析原始历史数据总样本量、数据包含的变量、不同数据时空分辨率、数据中的异常值、数据连续性和缺测情况、预报量和其他变量的数据分布情况、预报量和其他变量的关系;并在数据分析的基础上将数据进行规整、统一时空分辨率、处理异常值、处理数据连续性、处理数据频次、提取预报等级、增加和提取关键特征量、数据归一化处理、整合时间序列并划分样本集,以形成共机器学习的数据样本集;
分析数据总样本量,查看所有数据样本的起止时间和间隔频次,确定可用于机器学习的总样本量;
分析数据变量,查看数据中包括的所有变量,并初步分析可用于大雾预报的预报因子,将所有可用数据按时间进行规整;
分析数据时空分辨率,查看不同数据的时空分辨率,在此基础上将格点数据进行点位提取,并将所有数据处理为统一的时间和空间分辨率;
分析数据异常值,根据数据实际分布范围查看数据异常值,在此基础上根据变量规则去除异常值;
分析数据连续性和缺测情况,查看数据的完整性和连续性,在此基础上选取比较连续的数据集,使用插值算法将缺测数据和异常数据补全,形成连续可用的数据集;
处理数据频次,将处理好的连续数据集根据业务需要处理为合适时间频次间隔;
分析数据分布情况,查看预报量和预报因子的数据分布情况,并根据数据分布类型选取归一化方法,将数据进行归一化处理,将所有数据归一化到[-1,1]的区间或标准正态分布中;
提取预报等级,根据大雾预报业务需求划分能见度等级作为预报量,并查看等级分布情况;
分析预报量和其他变量的关系,即其他变量在不同能见度等级下的分布情况,为关键特征选取提供参考;
增加和提取关键特征量,删除对能见度预报没有意义的变量,并增加其他相关的诊断量,在此基础上通过机器学习方法计算每个变量的fcore,取对预报影响最大的一部分变量作为特征量,参加模型训练;
整合时间序列,由于预报量不仅和当前特征量有关,还和前序时间的预报量相关,为了体现气象要素的日变化特征,故选取前一日各时次的变量也作为特征量,整合为一个样本;
划分样本集,将整合好的样本集划分为训练集、验证集和测试集,训练集用于模型训练,验证集用于训练过程中模型调参,测试集用于最终预报模型性能测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京恩瑞特实业有限公司,未经南京恩瑞特实业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810199821.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:气象数据的获取方法及装置
- 下一篇:在空气界面具有高折射率材料的抗反射涂层