[发明专利]基于KMDB的软测量建模数据异常点检测方法有效
申请号: | 201510157690.6 | 申请日: | 2015-04-03 |
公开(公告)号: | CN104715160B | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 田慧欣;韩梅 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 kmdb 测量 建模 数据 异常 检测 方法 | ||
技术领域
本发明——基于KMDB(K-means与DBSCAN聚类算法相结合的算法)的软测量建模数据异常点检测方法,是针对复杂工业过程中建模数据异常点检测的特殊性提出的,本发明属于软测量建模领域。
背景技术
随着人工智能的发展,软测量技术在复杂工业过程中已经得到了广泛的应用。软测量技术的核心是建立工业对象的精确可靠的模型。无论采用何种方法建立软测量模型,都需要一定的建模数据,并且软测量模型的性能在很大程度上依赖于所获建模数据的准确性和有效性。然而,由于各种原因在现场采集的数据中不可避免地有异常点的存在。为了保障软测量模型的测量精度,必须在建立软测量模型之前将真实信号从含异常点的混合信号中分离出来,才能用于软测量建模。这个过程被称为复杂工业过程中异常点检测。长期以来,人们十分关注复杂工业过程中的异常数据,发现异常点并减少异常点对数据分析的影响是一项很有意义的研究。
聚类是数据挖掘中的一种重要技术,是分析数据并从中发现有用信息的一种有效手段。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。其中基于密度的算法由于可以发现任意形状的簇且能够较好地处理噪声数据,受到越来越广泛的关注。DBSCAN(Density-based spatial clustering ofapplications with noise)算法是应用最为广泛的密度聚类算法之一。该算法利用基于密度的聚类概念,即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快,且能够有效处理异常点和发现任意形状的空间聚类。但是,由于它直接对整个数据库进行操作,且进行聚类时使用了一个全局性的表征密度的参数,因此也具有一个比较明显的弱点:当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差。虽然已经有一些改进的DBSCAN算法被提出,但是对于复杂工业过程建模数据异常点检测的特殊性,这些算法都具有一定的不足。
针对上述问题和复杂工业过程中建模数据异常点检测的特殊性,同时考虑到单纯使用聚类思想的不足,本文提出了一种改进的基于K-means算法的DBSCAN聚类分析方法,即KMDB算法。K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。首先,该方法用K-means算法对DBSCAN算法改进,弥补了传统DBSCAN算法的不足。再次,该方法将异常点检测与软测量建模相结合,用建模误差对异常点检测过程进行指导,这样既保证了异常点检测的质量,同时完成了软测量模型的建立。用该方法进行异常点检测时能更有效的检测出异常点。
发明内容
针对上述问题和复杂工业过程中建模数据异常点检测的特殊性,同时考虑到单纯使用聚类思想的不足,本文提出了一种改进的基于K-means算法的DBSCAN聚类分析方法,即KMDB算法。首先,该方法用K-means算法对DBSCAN算法改进,弥补了传统DBSCAN算法的不足。再次,该方法将异常点检测与软测量建模相结合,用建模误差对异常点检测过程进行指导,这样既保证了异常点检测的质量,同时完成了软测量模型的建立。用该方法进行异常点检测时能更有效的检测出异常点。
本发明的基于KMDB的软测量建模数据异常点检测的方法具体步骤如下:
(1)设定异常点比例p0与误差比较系数t。
(2)确定样本数据集,计算用该数据集进行软测量建模的建模测试误差e0。
(3)根据误差使用公式(1)计算K值并对数据集聚类,将数据集划分为K类。
式中:K0=1,为向上取整符号,为向下取整符号,e为相对误差。
(4)调节Eps和MinPts,用DBSCAN算法进行局部聚类,不属于任何簇的点即为异常点。这里MinPts和Eps的初值根据不同的数据集依赖经验设定。
(5)合并各局部聚类结果,判断异常样本占总样本的比例p是否小于设定值p0。
若p<p0,进行下一步;
若p≥p0,依据异常样本占总样本的比例值p,调整MinPts和Eps的大小:
返回步骤(4)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510157690.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用