[发明专利]一种基于NGBoost算法的PM2.5在审

专利信息
申请号: 202210268175.5 申请日: 2022-03-17
公开(公告)号: CN114611399A 公开(公告)日: 2022-06-10
发明(设计)人: 刘希亮;高雨瑶;赵俊杰;张羽民;李建强;林绍福 申请(专利权)人: 北京工业大学
主分类号: G06F30/27 分类号: G06F30/27;G06F119/02
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ngboost 算法 pm base sub 2.5
【权利要求书】:

1.一种基于NGBoost算法的PM2.5浓度长时间序列预测方法,其特征在于,该方法的实施步骤如下:

(1)获取某地区目标空气监测站点的空气污染物和气象数据,并对数据进行存储和预处理;

(2)对步骤(1)获得的数据进行时序离散化,提取不同天数中同一小时的特征数据构成特征矩阵;

(3)对数据进行规范化、调整模型数据集划分比例、阈值参数,进行多组对比实验,完成参数调优;

(4)使用NGBoost算法对离散化后的二维特征矩阵进行训练和验证;

(5)输出目标站点未来一天的小时级PM2.5浓度预测结果。

2.根据权利要求1所述的基于NGBoost算法的PM2.5浓度长时间序列预测方法,其特征在于,所述步骤(1)中,进行数据预处理包括:

(1)利用Isolation Forest算法剔除总数据集中的异常值;首先将空气污染物浓度小于0的数据转换为空值,采用Isolation Forest算法,将样本随机切分成若干个树;通过随机采样数据对每棵树进行训练,进而保证每棵树的方差达到运行者要求;最后利用如下公式计算Z中所有样本点的异常值评分矩阵SC,其中SC={sc00,sc01,sc02...scxy},x=12,y=α;

其中E[h(zij)]为zij在多棵树中路径长度的期望值;c(n)是包含n个样本数据集的树平均路径长度,用来标准化记录zij的路径长度;H(*)为调和数,ξ为欧拉常数;

随后返回数据集中的异常点,设异常点评分的阈值为ρ,当任意数据点的异常值评分大于阈值,即时,将数据集中的该异常点zij设为空值;得到新的总数据集Z′;

(2)计算PM10浓度、NO2浓度、CO浓度、O3浓度、SO2浓度、温度、气压、相对湿度、风向、风速特征序列与PM2.5浓度序列的斯皮尔曼相关性系数,选择与PM2.5相关性强的因素作为输入模型的特征;首先利用如下公式计算任意两个特征fi、fj之间的相关性rij

其中n表示样本的数量和,α为从0开始的索引最后一行的行数,dk表示两个特征数据集合中数据次序的差值,Z′i和Z′j为分别为数据集Z′中第i个特征和第j个特征对应的数值列;

随后设检查PM2.5浓度和其他特征的相关性系数最小阈值为η,其他特征的相关性以及其他特征之间的相关性系数最大阈值为θ;当1≤j≤10或2≤i,j≤10∧i≠j时,则删除第j个特征对应的数值列Zj,不作为后续模型的输入数据,其他数据列保持不变;依照以上操作最终得到模型的输入数据集Zinput

(3)由筛选得到的特征序列构建目标站点的三维数据矩阵Zinput

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210268175.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top