[发明专利]一种用于污水异常检测的改进型层次聚类方法在审
申请号: | 201910187308.4 | 申请日: | 2019-03-13 |
公开(公告)号: | CN109858572A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 张宇;汤哲 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 层次聚类 改进型 网格聚类 异常检测 层次聚类算法 信息增益算法 终止条件 方差 污水 判定 污水处理 数据预处理 自动化监控 机器学习 聚类过程 数据异常 异常数据 网格 算法 投影 应用 检测 凝聚 保证 | ||
1.一种用于污水异常检测的改进型层次聚类方法,包括以下步骤:
S1:将污水处理系统的数据进行采集和预处理,得到相关数据集D;
S2:将相对的n维数据空间按照不同维度划分为互不相交的矩形单元,将每个单元内的数据点作为一个簇,并进行初始合并形成新的初始簇;
S3:根据LDA算法模型构造损失函数,将初始簇的数据点带入函数内,计算对应的损失函数;
S4:将现有簇进行相似度计算,并构造相对的相似度矩阵,根据结果将相似度最大的两个簇进行合并,得到新的簇;
S5:计算现有簇的损失函数,若损失函数减小,则返回S4,否则向下进行;
S6:返回前一次的聚类结果,根据聚类结果计算相关离群点,将其标记为异常数据点,并判断其对应的异常类型进行相应故障排除。
2.根据权利要求1所述的一种用于污水异常检测的改进型层次聚类方法,其特征在于:
S1中在工业污水处理工艺系统中使用PLC对污水中的数据进行周期式的采集,根据“进水COD值”曲线将收集到的数据按不同的时间段进行划分为三个不同的时间段0:00-8:00,8:00-16:00,16:00-24:00,并对高维的数据进行标准化处理并用PCA进行降维,最终得到数据集D。
3.根据权利要求1所述的一种用于污水异常检测的改进型层次聚类方法,其特征在于:
在S2中对预处理后的相关数据进行网格聚类,获取当前数据集D,并根据数据集中数据的相关分布对n维数据设置网格步长l和相关密度阈值x,将数据点按照每一个维度进行划分,将高维空间划分为互不相交的矩形网格单元,以此定义该数据集为一个网格单元集,将相关单元中的数据点映射到对应的单元格内,形成初始聚类;
依次选取密度大于密度阈值的网格(及当前网格密度ρ>密度阈值x),将其与所述中心网格相邻的且大于阈值的网格进行合并,直至所有的网格都合并完成,对当前结果判断所述合并后的网格是否存在边界点,并其边界上的数据点按照一定算法与其所在网格进行合并;
将合并后的网格进行标记,同一网格内的数据点建立为一个初始簇{x1,x2,...,xk}(其中k为当前聚类的个数),并按照该结果进行下一步的计算和聚类。
4.根据权利要求1所述的一种用于污水异常检测的改进型层次聚类方法,其特征在于:
步骤S3中基于LDA的信息增益算法建立损失函数,作为聚类的终止条件;
给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中m为预处理后的数据点的个数,yi∈{c1,c2,...,cm},cj为当前聚类中的簇,其中包含的数据点数量为Nj,设所有数据点的均值向量为μ,第j类数据点的均值向量为μj,第i类数据点的协方差矩阵为Σi,将当前聚类投影到维度为d的超平面内,且其对应的基向量为(ω1,ω2,...,ωd),则根据LDA算法模型可得相应的判定表达式为:
将以上目标式进行改写,将W改为标量函数进行优化,得到:
即根据LDA算法的原理,当J(ω)为最大时,对聚类结果进行投影,不同类别之间的数据点距离最大而同一类别的数据点间距离最小,此时矩阵SbSω-1为最小特征值,即计算当前SbSω-1,用以得到最佳的聚类效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910187308.4/1.html,转载请声明来源钻瓜专利网。