[发明专利]一种基于CatBoost模型的车辆尾气浓度超标判别方法有效
申请号: | 201911392959.3 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111024898B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 凌强;费习宏;李峰 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G01N33/00 | 分类号: | G01N33/00;G01N21/31;G01D21/02;G06K9/62 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 catboost 模型 车辆 尾气 浓度 超标 判别 方法 | ||
1.一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于,包括以下步骤:
步骤1:分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据集,再按照尾气排放浓度超标标准将CO、HC尾气浓度进行划分超标结果,即为模型的输出结果,将历史尾气数据集划分为尾气训练样本集和尾气测试样本集;
步骤2:使用尾气训练数据集训练CatBoost尾气浓度超标判别模型,再向训练好的CatBoost尾气浓度超标判别模型输入待检测车辆相关尾气数据,即能够判别出待检测车辆CO、HC尾气浓度超标结果;
所述步骤2中,使用尾气训练数据集训练CatBoost尾气浓度超标判别模型,再向训练好的CatBoost尾气浓度超标判别模型输入待检测车辆相关尾气数据,即可判别出待检测车辆CO、HC尾气浓度超标结果,其训练过程包括如下:
(21)首先对历史尾气数据集中的类别型特征进行处理,CatBoost在训练过程中自动完成对类别型特征采用不同的方法进行处理,对于输入特征类别型特征中数据元素是自然数的低势类别型特征的处理方法是采用One-hot编码,即将原来的类别型特征删除,使用二进制向量表示类别型特征;其中需要One-hot编码的类别型特征有车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;对于输入特征类别型特征中数据元素不是自然数的高势类别型特征,采用目标变量统计(target statistics,TS)的方法处理类别型特征,TS用于估算每个类别的目标变量期望值,该期望值作为一个新的数值型变量来代替原来的类别型特征的值,其中需要使用TS的类别特征有车牌号码,期望值的数学表达式表示为:
其中表示用来代替的尾气样本集输入特征中类别型特征i在第k个样本集中类别的TS相等的数值型变量;a是先验概率p的权重且a>0;先验概率p为尾气数据集当中CO或者HC浓度超标结果的平均值;yi为尾气样本集输入特征中类别型特征i中的CO或者HC浓度超标结果;表示时,该表达式的值为1,否则为0,表示尾气样本集输入特征中类别型特征i在第j个样本集中的类别;
(22)将类别型特征处理过的尾气数据集特征构建对称的分类与回归树(classification and regression tree,CART)决策树,然后构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用的梯度提升迭代决策树(gradient boostingdecision tree,GBDT)算法构建树的结构,按照基尼指数最小原则进行迭代的切分两棵对称的CART树的根节点,其中基尼指数数学表达式为:其中Gini(p)表示得到的基尼指数值,K为尾气数据集中的CO或者HC浓度超标结果的种类,pk为尾气数据集属于第k类的概率,直到CART树的结点中的尾气数据集的基尼指数小于预定的阈值停止迭代,最终生成对称的CART决策树,即为CatBoost模型;
(23)根据以上生成的CatBoost模型,输入尾气训练样本集,将CatBoost模型中得到的所有构建的对称的CART树的结果值累加起来,得到最终的尾气排放浓度超标判别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911392959.3/1.html,转载请声明来源钻瓜专利网。