[发明专利]一种基于NGBoost算法的PM2.5 在审
申请号: | 202210268175.5 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114611399A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 刘希亮;高雨瑶;赵俊杰;张羽民;李建强;林绍福 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/02 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ngboost 算法 pm base sub 2.5 | ||
本发明公开了一种基于NGBoost算法的PM2.5浓度长时间序列预测方法,该方法综合气象和其他污染物影响因素,提出了基于自然梯度提升的PM2.5浓度预测模型,以提升长时间序列PM2.5浓度预测的精度。使用Isolation Forest算法对采集到的目标站点空气污染物及气象数据进行了异常值判定、通过斯皮尔曼相关系数进行特征选择等预处理作为总数据集;提出数据时序离散化方法,使用所有天中同一小时的数据构成模型输入。然后进行了数据规范化、数据集划分比例、阈值等参数调优实验进行模型优化。最后将离散化后的多维数据集采用NGBoost算法,得出对目标站点未来一天PM2.5浓度的小时级精确化预测值。本发明为PM2.5浓度长时间序列预测提供了一个开放的研究框架。
技术领域
本发明涉及空气污染物浓度预测、基于机器学习建模等技术。具体涉及一种应用于长时间序列预测PM2.5浓度的方法。
背景技术
近年来,随着城市化和工业化的发展,大气污染逐渐成为了一个严重社会问题。人们长时间暴露于高浓度的PM2.5中会提升患有癌症和呼吸系统疾病的风险。并且由于PM2.5空气中的停留时间过长而形成的雾霾会导致能见度降低,进而造成交通拥堵、航班延误等问题,极大的影响了人们正常的工作和生活。因此PM2.5浓度预测技术,作为空气质量监控的重要手段之一,可以通过提前预警让人们提前做好防护措施,是改善城市交通、提高居民健康指数的有效途径。
面对常态化雾霾污染和不断升高的PM2.5浓度值,我们迫切需要一个能够提前长时间序列预测PM2.5浓度值的方法。虽然目前已有多种PM2.5浓度预测模型,但是当前模型主要聚焦于PM2.5浓度的单步预测,即预测1小时之后的PM2.5浓度,只适用于短期决策问题。而且现有的PM2.5浓度多步预测主要依赖于深度神经网络技术,具有强学习能力的同时也需要高性能计算和存储的支持。因此,为了便利民众出行和保护公众身体健康,我们亟需实现一种基于NGBoost算法的长时间序列PM2.5浓度预测方法,为管理部门决策提供关键支撑。
发明内容
本发明解决的问题是:提出了一种基于NGBoost算法的PM2.5浓度长时间序列预测方法,弥补了当前无法高效、准确的预测未来一天PM2.5浓度值的不足。本发明综合分析了其他空气污染物和气象因素对PM2.5浓度的影响,增加了预测的准确性。并且本发明采用了NGBoost算法进行模型训练,降低了模型复杂度和训练时间,能够更快的得到PM2.5浓度预测值。最重要的是,本发明提出了一种数据时序离散化的方法对训练集进行处理,避免采用复杂的神经网络进行预测的同时提高了模型性能和准确率。
本发明的技术解决方案为:本发明提出了一种基于NGBoost算法的PM2.5浓度长时间序列预测方法。该方法利用IsolationForest算法筛选出样本中的异常值,并利用斯皮尔曼相关性系数筛选与PM2.5浓度强相关的特征信息。在此基础上对数据进行时序特征离散化,得到不同天数中同一小时的二维数据列表,并结合天数数据共同沟通了三维数据矩阵作为模型输入。然后进行了数据规范化、数据集划分比例、阈值等参数调优以辅助优化模型。最后采用NGBoost算法对多维特征数据进行训练,得出目标站点未来一天的小时级PM2.5浓度预测值。
附图说明
图1是本发明的整体步骤流程图
具体实施方式
(1)数据准备:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210268175.5/2.html,转载请声明来源钻瓜专利网。