[发明专利]基于不平衡修正半监督学习的道边空气污染预测方法有效
申请号: | 201811541675.1 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109657858B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 佘青山;吴启凡;蒋鹏;席旭刚;林宏泽 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/0637;G06Q50/26;G06N20/00 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不平衡 修正 监督 学习 空气污染 预测 方法 | ||
1.基于不平衡修正半监督学习的道边空气污染预测方法,其特征在于步骤如下:
S1:获取道边空气监测站点的历史污染物数据;
S2:对历史污染物数据进行预处理,并且划分为训练集和测试集;
S3:采用带多数类权重的少数类过采样技术对训练集中的有标记的污染物数据进行不平衡修正;
S4:将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练SSELM模型;
S5:将测试集数据输入到道边空气污染预测模型中,即可得到预测结果;
其中步骤S3的具体步骤包括:
S31:有标记污染物样本Xl中按照样本数目的多少,分为少数类样本集和多数类样本集
S32:计算少数类样本集中每个样本的k1最近邻集,其中属于少数类的记为Setmin;
S33:去掉少数类样本集中的噪声样本并记为其中噪声样本是最近邻集中只有多数类没有少数类的样本;
S34:在少数类样本集中,根据欧式距离计算每个样本的k2多数类最近邻,并记为Setmaj,表示决策边界的多数类样本集;
S35:在样本集Setmaj中,根据欧式距离计算每个样本的k3少数类最近邻,并记为Setrep,表示少数类中的代表性样本;
S36:计算每一个属于Setrep的样本到决策边界数据集Setmaj的距离,根据距离大小分配权值,该权值决定了该样本被选到去合成新样本的概率;权值计算公式如下:
其中
num_min为Setrep样本集的数量,L(max)表示Setmaj中的样本,num_max表示整个样本集的数量;
S37:利用Setrep中的样本,在样本之间利用线性插值法生成少数类样本,公式如下:
s=x+α(y-x)
其中s表示新生成的少数类样本,α是0和1之间的随机数,y是x的近邻样本;
S38:将这些新生成的少数类样本与少数类样本集和多数类样本集Xl-合并成新的有标记污染样本集X′l;
其中步骤S4的具体步骤为:
S41:利用步骤S3更新过的有标记样本集和无标记样本集作为SSELM模型的输入,并计算图的拉普拉斯算子L;
S42:根据随机的输入层权值ω和隐含层偏置b,初始化具有m个隐含层结点的ELM神经网络,设激活函数为g(x),计算隐含层输出矩阵H;
H=g(ωx+b)
S43:设置权衡参数C和λ;
S44:根据SSELM模型的目标函数,求得输出层权值矩阵β;其中目标函数表示为:
其中是为结构风险项,为经验风险项,Tr(g)表示矩阵的迹,F为实际输出矩阵,yi为对应样本xi的期望输出,ei对应样本xi的训练误差;
S35:求解隐含层输出权值矩阵解;
当输入样本集X′l的个数l′+u大于隐含层节点个数m时,目标函数的解为β=(I+CHTH+λHTLH)-1CHTT;当输入样本集X′l的个数l′+u小于隐含层节点个数m时,解为β=HT(I+CHTH+λHTLH)-1CT,返回f(x)=h(x)β;其中,I为单位矩阵,T为期望输出矩阵。
2.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S1中历史污染物包括二氧化氮、二氧化硫、一氧化碳和悬浮微粒。
3.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S2中对历史污染物数据进行预处理包括缺失值处理和归一化处理。
4.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S3中有标记样本是指提前分好污染等级的样本,无标记样本是指未提前分好污染等级的样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811541675.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理