[发明专利]一种用于空气质量分类的改进随机森林方法有效

专利信息
申请号: 201910612178.4 申请日: 2019-07-08
公开(公告)号: CN110334767B 公开(公告)日: 2023-02-21
发明(设计)人: 熊庆宇;易华玲;吴丹;吉皇;余洋;高旻;王楷 申请(专利权)人: 重庆大学
主分类号: G06F18/2431 分类号: G06F18/2431;G06F18/214;G01N33/00
代理公司: 重庆西南华渝专利代理有限公司 50270 代理人: 郭桂林
地址: 400044 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 空气质量 分类 改进 随机 森林 方法
【说明书】:

发明公开了一种用于空气质量分类的改进随机森林方法,包括空气质量分类模型,该空气质量分类模型包括原始数据模块、数据预处理模块、分类生成模块、分类数据模块,其中,原始数据模块用于采集原始空气数据;数据预处理模块用于对原始空气数据进行数据清洗、数据集成、数据转换等操作;分类生成模块用于对数据预处理模块所处理后的数据进行随机采样,并同时基于CART算法分类出决策树;分类数据模块用于接收分类生成模块所输出的分类模型,以及输出空气数据分类结果,所述随机采样包括基于样本类别分组的自助采样方法和随机特征子空间法。本发明提升了少数类样本的分类精度,降低了样本集的整体错分代价。

技术领域

本发明涉及空气质量的监测技术领域,尤其涉及一种用于空气质量分类的改进随机森林方法。

背景技术

空气污染是指人类在自然环境中进行生产生活,由于一些不恰当的行为而将某些污染物排入大气中,当物质浓度达到一定数值后对人体健康和自然环境造成危害的一种现象。大气环境复杂多变且具有动态的不确定特性,引发空气污染的相关因素有很多,比如PM(2.5)、SO2和O3等超过一定浓度的空气污染物,还有降水、风向、湿度等因素,这些因素都跟未来一段时间之内的空气质量存在着较强的非线性关系。较为准确的空气质量预报能够帮助人们采取有效措施,合理安排出行计划,有助于大气污染防控和城市环境规划建设,减少不必要的损失,对人们的生产生活有着重要的指导意义。

随着现代化信息体制的建设,以及大数据处理技术的崛起,人工智能不断有新的进展和突破,机器学习发挥了非常重要的作用。作为关键技术的数据挖掘及其智能分类在各种监测分类领域得到广泛运用,而其中运用技术包括基于随机森林进行数据分类的监测方法。随机森林采用了集成算法适用于各种类型的数据集,既能处理离散型数据,也能处理连续型数据,同时较好地避免了过拟合问题。

现有技术中的随机森林算法是一种有监督的机器学习方法,如图1所示,该方法通过集成多个相互独立的决策树(弱学习器)的学习结果,以形成一个树的组合模型(强学习器)。随机森林是一种非线性拟合模型,可以处理非线性的数据,具有实现简单,训练速度快等特点;其模型训练过程主要由两部分构成:随机采样和完全分裂,随机采样包括对原始训练数据集的随机行采样(自助采样法)和随机列采样(随机子空间法),其中,随机行采样是对数据集中所有样本进行有放回地随机采样,即每次从原始训练数据集中抽取一个样本,而后放回,重复抽取N次得到一个与原始训练数据集大小相同的新数据集;随机列采样是对原始数据集的特征空间进行的一种无放回的随机采样,每次从原始特征空间中随机抽取一个特征,不放回该特征,再从剩下的特征空间中随机抽取下一个特征,重复该抽取过程直到抽取到的特征数量满足决策树模型训练所需的数量。完全分裂是指所训练所得到的每一棵决策树都是完全生长的,没有进行剪枝操作,即将随机行采样和随机列采样后得到的数据集作为随机森林中训练决策树的训练数据集,由于每一棵树的训练数据集都是互不相同的,所以森林中的每一棵树都是互不相同且相互独立的,因此可以并行生成决策树模型,完全分裂使决策树充分利用训练集中的特征,以使决策树获得较好的学习能力。总而言之,随机森林模型中的决策树群体具有“好而不同”的特点,可以取得较好的泛化能力和抗过拟合能力。

但是,现有随机森林运用当中的训练数据集具有不平衡特性,即某一类的样本数量要小于其他类的样本数量,且少数类具有更高错分代价。错分代价可示意举例为利用数据智能化对肺结核疾病进行诊断,患肺结核样本(少数类样本)的数量远小于未患肺结核样本(多数类样本)数量,但是将患病样本错误诊断(分类)为未患病样本的代价是远远大于将未患病样本错误诊断(分类)患病样本的代价。当其对不平衡数据进行分类时,由于多数类样本和少数类样本在数量上的不平衡,会使得分类模型偏向于多数类而忽略少数类,造成少数类的分类精度较低,进而造成训练数据集的误差发展,最终形成错误的数据分类;影响采用样本数据使用者的间接判断,进而对人们的生产生活造成误导,具有较高的错分代价。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910612178.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top