[发明专利]基于不平衡修正半监督学习的道边空气污染预测方法有效
申请号: | 201811541675.1 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109657858B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 佘青山;吴启凡;蒋鹏;席旭刚;林宏泽 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/0637;G06Q50/26;G06N20/00 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不平衡 修正 监督 学习 空气污染 预测 方法 | ||
本发明公开了一种基于不平衡修正半监督学习的道边空气污染预测方法。本发明包括以下步骤:(1)获取道边空气监测站点的历史污染物数据。(2)对历史污染物数据进行预处理,并且划分为训练集和测试集。(3)采用带多数类权重的少数类过采样技术对训练集中的有标记污染物数据进行不平衡修正。(4)将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练半监督超限学习机模型。(5)将测试集数据输入到道边空气污染预测模型中,即可得到预测结果。本发明基于类别不平衡数据处理算法和半监督学习技术,考虑了污染物数据的不平衡性、缺少标记这一特性,提高了道边监测站点空气污染预测精度。
技术领域
本发明涉及空气污染预测技术领域,尤其是涉及一种基于不平衡修正半监督学习的道边空气污染预测方法。
背景技术
随着中国工业化、城市化进程的不断加速,机动车保有量迅猛增长,移动污染源排放总量增加,逐渐成为城市空气污染的主要来源。机动车尾气的主要污染物包含CO、HC、NOx、PM,人体吸入这些有害气体,会增加患呼吸和心血管的疾病的风险,这些污染对人体健康有很大影响。因此,为了控制机动车排放、改善区域空气质量,需要了解移动污染源对道边的污染情况,预测监测站点周围的空气质量。
目前,空气污染预测方法主要分为:
(1)污染物扩散模式模拟计算方法
这类方法通常基于经验假设,根据污染物扩散、迁移及转换规律,模拟出一个计算公式。需要对污染物的形成和来源有充分的理解,得到的模型复杂,计算量大。且不同的道路建立的预测模型都不一样,具有局限性。
(2)基于机器学习的预测方法
这类方法是由数据驱动的,不模拟排放和污染物之间的物理模型,主要依赖于传感器监测到的气象数据和污染物数据。常用的有人工神经网络、支持向量机、决策树等。虽然这类机器学习模型在空气污染预测上取得了不错的效果,但也存在如下问题:不同空气质量等级的数据存在非常大的不平衡性,例如,某个监测站点的空气质量等级为1级的样本有80个,2级的样本只有20个。即使所有样本都预测为空气质量1级,正确率依然可以达到80%,而对2级的预测准确率为0%。这样的预测模型是不符合实际的。传统的基于机器学习的污染预测方法假设有标记污染样本充足,未考虑到大比例的无标记污染样本。如何利用有标记样本和无标记样本,提高预测模型性能,引到了广泛的关注。
发明内容
本发明克服现有技术的不足,提供一种基于不平衡修正半监督学习的道边空气污染预测方法,在考虑到数据类别不平衡性的同时,结合半监督学习建立预测模型,提高了模型的实用性和预测性能。
本发明技术解决方案:
一种基于不平衡修正半监督学习的道边空气污染预测方法,该方法具体包括以下步骤:
S1:获取道边空气监测站点的历史污染物数据X。
进一步,在步骤S1中,包括:
历史污染物数据X包括有标记污染物样本Xl和无标记污染物样本Xu。有标记污染物样本Xl为提前分好污染等级的样本,无标记污染物样本Xu为未提前分好污染等级的样本。
S2:对历史污染物数据进行预处理,并且划分为训练集和测试集。
进一步,在步骤S2中,对历史污染物数据的预处理包括缺失值处理和归一化处理。
S3:采用带多数类权重的少数类过采样技术(Majority Weighted MinorityOversampling Technique,MWMOTE)对训练集中的有标记污染物数据进行不平衡修正。
进一步,在步骤S3中,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811541675.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理