[发明专利]基于信息熵聚类的异常检测方法在审
申请号: | 201811170299.X | 申请日: | 2018-09-28 |
公开(公告)号: | CN109522926A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 方锡;谭文安;赵璐 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211100 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开的一种基于信息熵聚类的异常检测方法,属于机器学习和数据挖掘领域。本发明的异常检测算法基于聚类算法的思想,克服了传统K‑means聚类算法随机选择初始聚类中心易导致聚类结果陷入局部最优的问题,提出基于信息熵选取初始聚类中心的方法。本发明提出的方法是将数据集平均分成比K值多的数据块,进而使用熵值法得到每个数据块的目标价值函数,选取前k个目标价值函数值最小的数据块对应的质心作为初始聚类中心,利用熵值法保证了初始聚类中心选取的高效性,并在算法的迭代过程中实现了异常检测的功能。同传统的基于K‑means的聚类算法相比,本发明提出的算法无论是在聚类效果和异常检测能力上均高于传统K‑means聚类算法。有一定的实际意义。 | ||
搜索关键词: | 初始聚类中心 聚类算法 异常检测 数据块 信息熵 聚类 价值函数 算法 异常检测算法 迭代过程 机器学习 聚类结果 数据挖掘 随机选择 传统的 高效性 数据集 质心 保证 | ||
【主权项】:
1.一种基信息熵聚类的异常检测算法,其特征在于,包括以下步骤:步骤1)确定初始聚类中心个数K,聚类函数精度ε步骤2)设置初始聚类准则函数值J0=0,数据集中每个数据点x的初始异常度Abnx=0;步骤3)将数据对象平均分成k1(k1>k)个子集,从各个子集中随机选出一个数据对象,并将其作为聚类种子中心,扫描数据集合,根据其与各聚类中心的相似度(赋权后的欧氏距离),将其归于其最相似的簇中,形成k1个初始类簇;步骤4)计算k1个聚类的σi,并按照σi值递增顺序排序,选取前k个σi值对应的质心作为初始聚类中心cj;步骤5)计算所有数据集中所有数据点和各个聚类中心的欧式距离其中,i=1,2,...,n且j=1,2,...,K,m代表数据集的维度。对于数据点x,若cj使得D(xi,cj)=minD(xi,cj),j=1,2,...,K,则将点x划分到cj所代表的簇;步骤6)在形成的K个类簇中,若属于该簇的数据点x与该聚类簇中心距离大于平均距离,即其中Nj是cj代表簇拥有数据点的总数,则Abnx++;步骤7)若Abnx≥3,则判断x为异常点,将其从数据集中剔除,并入异常集U中;步骤8)判断聚类准则函数是否满足收敛条件|J′‑J|≤ε(J是上次迭代聚类准则函数,J′是本次聚类准则函数值),若不满足,转步骤9)继续迭代。若满足收敛条件,则算法结束,输出各个类簇和异常点集合U;步骤9)重新计算各类簇的聚类中心:然后转步骤5),Nj是cj代表的簇中拥有的数据点总数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811170299.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种图像识别方法、装置和存储介质
- 下一篇:用于用户消息的情感分析方法及装置