[发明专利]基于信息熵聚类的异常检测方法在审
申请号: | 201811170299.X | 申请日: | 2018-09-28 |
公开(公告)号: | CN109522926A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 方锡;谭文安;赵璐 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211100 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 初始聚类中心 聚类算法 异常检测 数据块 信息熵 聚类 价值函数 算法 异常检测算法 迭代过程 机器学习 聚类结果 数据挖掘 随机选择 传统的 高效性 数据集 质心 保证 | ||
本发明公开的一种基于信息熵聚类的异常检测方法,属于机器学习和数据挖掘领域。本发明的异常检测算法基于聚类算法的思想,克服了传统K‑means聚类算法随机选择初始聚类中心易导致聚类结果陷入局部最优的问题,提出基于信息熵选取初始聚类中心的方法。本发明提出的方法是将数据集平均分成比K值多的数据块,进而使用熵值法得到每个数据块的目标价值函数,选取前k个目标价值函数值最小的数据块对应的质心作为初始聚类中心,利用熵值法保证了初始聚类中心选取的高效性,并在算法的迭代过程中实现了异常检测的功能。同传统的基于K‑means的聚类算法相比,本发明提出的算法无论是在聚类效果和异常检测能力上均高于传统K‑means聚类算法。有一定的实际意义。
技术领域
本发明涉及机器学习和数据挖掘技术领域,具体是基于信息熵聚类的异常检测算法。
背景技术
随着近代以来信息技术的迅猛发展,在诸多领域中一些和大多数数据不同的特殊数据受到人们的广泛关注,这些特殊数据称为异常数据。异常是在数据集中与众不同的数据,使人怀疑这些数据并非偏差,而是产生于完全不同的机制。异常检测常用方法包括:基于统计的异常检测方法、基于数据流算法的异常检测方法和基于无监督学习的机器学习方法。数据挖掘、机器学习在异常检测中的应用得到了广泛关注。数据挖掘是指从海量数据中搜索出隐藏信息的过程,它通常与机器学习、模式识别等方法结合来实现上述目标数据挖掘技术的异常检测分为分类、聚类和关联规则三种。
聚类分析作为数据挖掘的重要分支,是对事先未知的数据对象进行类的划分,目标是将数据集分成若干的簇,并保证同一簇内的数据点相似度尽可能大,簇于簇之间的数据点相似度尽可能小。K-means方法就是一种基于无监督的划分聚类算法,因其高效性和简单性被广泛用于异常检测领域。但由于该算法的初、始聚类中心选择过程是随机的,因此容易导致最终聚类结果陷入局部最优而非全局最优。
另一种比较常用的检测方法是基于信息熵的异常检测。信息熵是香农在1948年,将热力学中熵的概念引入到信息论中,用来解决信息量化度量的问题而提出来的。信息熵可以被用来测量一个系统的“无序”程度,熵值越大,说明系统中的数据越无序;熵值越小,则说明系统中的数据越有序,越“纯净。那么,如果将信息熵应用到聚类中,由于它是依赖于记录中每个属性的概率,因此属性的取值可以是离散的和无序的,即信息熵适合处理具有分类属性的记录的聚类问题。根据聚类的判断准则,同一聚类中的数据越相似越好。
在本发明中,我们针对传统聚类算法的聚类效果易受到初始聚类中心的影响的问题,提出一种基于信息熵和k-means聚类算法的动态聚类方法,该方法首先通过熵值法对聚类对象赋权的方式来修正对象间的距离函数,利用初始聚类的赋权函数值选出质量较高的初始聚类中心,优化了算法的初始化过程,并基于此提出了异常检测算法。实验证明,我们改进后的 k-means算法具有更准确更高效的聚类效果和更好异常检测能力。
参考文献:
[1]Jia G,Cheng G,Gangahar D M,et al.Traffic anomaly detection usingk-means clustering[J],40(6):403-410(2017).
[2]Agrawal S,Agrawal J.Survey on Anomaly Detection using Data MiningTechniques☆[J]. Procedia Compmer Science,60(1):708-713(2015).
[3]Joseph S R,Hlomani H,Letsholo K.Data Mining Algorithms:An Overview[J].Neuroscience, 12(3):719-43(2016).
[4]Lee W.Applying data mining to intrusion detection[J].Acm SigkddExplorations Newsletter, 4(2):35-42(2002).
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811170299.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像识别方法、装置和存储介质
- 下一篇:用于用户消息的情感分析方法及装置