[发明专利]基于多种机器学习算法融合的污染物浓度反演方法在审

申请号：	202110704245.2	申请日：	2021-06-24
公开（公告）号：	CN113379148A	公开（公告）日：	2021-09-10
发明（设计）人：	胡俊涛;陈一源;方勇	申请（专利权）人：	合肥工业大学智能制造技术研究院
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/06;G06Q50/26;G06N3/04;G06F17/15
代理公司：	安徽合肥华信知识产权代理有限公司 34112	代理人：	余成俊
地址：	230000 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多种机器学习算法融合污染物浓度反演方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多种机器学习算法融合的污染物浓度反演方法，该方法融合了CNN、SVM、XGBoost三种机器学习算法，保留了各算法的优势，CNN可以提取具有代表性的特征，SVM算法具有非线性映射和小样本学习的优势，XGBoost算法加入正则化项，可避免过拟合，提高算法效率以及污染物浓度反演的精度。CNN部分作为模型结构的上层，通过卷积层和池化层提取并筛选出数据的主要特征，再经过全连接层展平后输入到模型结构的下层。SVM、XGBoost部分作为模型结构的下层，得到两部分算法的反演结果后，采用模糊逻辑算法进行权重分配，得到最终结果。

技术领域

本发明涉及基于机器学习算法的环境数据反演方法领域，具体是一种基于多种机器学习算法融合的污染物浓度反演方法。

背景技术

气体污染物中，排放的二氧化硫会刺激人体的呼吸道，诱发各种呼吸道疾病，同时会对植被等造成危害，排放的氮氧化物会与其它污染物结合，产生光化学烟雾污染。国家目前用来评价环境空气质量的指标主要是基于六种污染物的浓度，分别是臭氧(O₃)、二氧化氮(NO₂)、二氧化硫(SO₂)、一氧化碳(CO)、细颗粒物(PM2.5)、可吸入颗粒物(PM10)。

近年来，空气污染问题愈发严重，已经成为全球性问题。空气质量监测是应对空气污染的重要手段。国家建立了多个空气监测站点来实时监测空气污染状况，其数据准确度较高，但成本高昂，由政府部门统筹规划，部署较为稀疏。因此，通常使用较低成本的微型监测传感器设备构建大型传感器网络，实现密集化的区域监测。然而，由于受到温湿度、交叉干扰和传感器老化等因素的影响，微型传感器设备读数会和标准浓度之间存在一定的偏差。为确保网络中传感器的数据质量，需要对这些微型传感器数据进行浓度反演。

目前，常用的反演算法包括XGBoost、SVM、RNN等，它们在实际使用时存在容易出现过拟合、依托大样本学习、特征冗余等缺点。本专利将CNN、XGBoost、SVM三种算法结合，既具有非线性映射和小样本学习的优势又可避免过拟合，在提高浓度反演精度的同时也提高了模型的计算效率。

发明内容

本发明的目的是提供一种基于多种机器学习算法融合的污染物浓度反演方法，以解决现有技术存在的容易出现过拟合、依托大样本、计算效率低、精度达不到要求的问题。

为了达到上述目的，本发明所采用的技术方案为：

基于多种机器学习算法融合的污染物浓度反演方法，包括以下步骤：

步骤1、获取空气微站测得的空气污染物数据，以此构建数据集，并对所述数据集进行预处理；

空气微站中测得的数据包括多种空气污染物浓度值、温度、湿度、风速风向、气压值，本发明以空气微站测得的这些数据构建数据集。

步骤2、构建卷积神经网络，并调整卷积神经网络直至卷积神经网络的参数为最优参数；

步骤3、将步骤1预处理后的数据集中的数据输入至步骤2调整后的卷积神经网络中，由卷积神经网络提取数据的抽象特征；

步骤4、构建XGBoost模型，将步骤3得到的所述抽象特征输入至XGBoost模型，并对XGBoost模型进行训练，训练过程中计算XGBoost模型的结点损失以选择增益损失最大的叶子结点，由此通过训练得到XGBoost模型的最优参数，并通过最优参数时的XGBoost模型输出浓度反演结果；

步骤5、构建SVM模型，将步骤3得到的所述抽象特征输入至SVM模型，并对SVM模型进行训练，训练过程中利用网格搜索法得到SVM模型的最佳惩罚系数C及松弛变量，由此通过训练得到SVM模型的的最优参数，并通过最优参数时的SVM模型输出浓度反演结果；

步骤6、将步骤3中XGBoost模型、步骤4中SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配，得到污染物浓度最终反演结果。