[发明专利]一种基于NGBoost算法的PM2.5 在审
申请号: | 202210268175.5 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114611399A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 刘希亮;高雨瑶;赵俊杰;张羽民;李建强;林绍福 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/02 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ngboost 算法 pm base sub 2.5 | ||
1.一种基于NGBoost算法的PM2.5浓度长时间序列预测方法,其特征在于,该方法的实施步骤如下:
(1)获取某地区目标空气监测站点的空气污染物和气象数据,并对数据进行存储和预处理;
(2)对步骤(1)获得的数据进行时序离散化,提取不同天数中同一小时的特征数据构成特征矩阵;
(3)对数据进行规范化、调整模型数据集划分比例、阈值参数,进行多组对比实验,完成参数调优;
(4)使用NGBoost算法对离散化后的二维特征矩阵进行训练和验证;
(5)输出目标站点未来一天的小时级PM2.5浓度预测结果。
2.根据权利要求1所述的基于NGBoost算法的PM2.5浓度长时间序列预测方法,其特征在于,所述步骤(1)中,进行数据预处理包括:
(1)利用Isolation Forest算法剔除总数据集中的异常值;首先将空气污染物浓度小于0的数据转换为空值,采用Isolation Forest算法,将样本随机切分成若干个树;通过随机采样数据对每棵树进行训练,进而保证每棵树的方差达到运行者要求;最后利用如下公式计算Z中所有样本点的异常值评分矩阵SC,其中SC={sc00,sc01,sc02...scxy},x=12,y=α;
其中E[h(zij)]为zij在多棵树中路径长度的期望值;c(n)是包含n个样本数据集的树平均路径长度,用来标准化记录zij的路径长度;H(*)为调和数,ξ为欧拉常数;
随后返回数据集中的异常点,设异常点评分的阈值为ρ,当任意数据点的异常值评分大于阈值,即时,将数据集中的该异常点zij设为空值;得到新的总数据集Z′;
(2)计算PM10浓度、NO2浓度、CO浓度、O3浓度、SO2浓度、温度、气压、相对湿度、风向、风速特征序列与PM2.5浓度序列的斯皮尔曼相关性系数,选择与PM2.5相关性强的因素作为输入模型的特征;首先利用如下公式计算任意两个特征fi、fj之间的相关性rij:
其中n表示样本的数量和,α为从0开始的索引最后一行的行数,dk表示两个特征数据集合中数据次序的差值,Z′i和Z′j为分别为数据集Z′中第i个特征和第j个特征对应的数值列;
随后设检查PM2.5浓度和其他特征的相关性系数最小阈值为η,其他特征的相关性以及其他特征之间的相关性系数最大阈值为θ;当1≤j≤10或2≤i,j≤10∧i≠j时,则删除第j个特征对应的数值列Zj,不作为后续模型的输入数据,其他数据列保持不变;依照以上操作最终得到模型的输入数据集Zinput;
(3)由筛选得到的特征序列构建目标站点的三维数据矩阵Zinput。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210268175.5/1.html,转载请声明来源钻瓜专利网。