[发明专利]基于信息熵聚类的异常检测方法在审
申请号: | 201811170299.X | 申请日: | 2018-09-28 |
公开(公告)号: | CN109522926A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 方锡;谭文安;赵璐 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211100 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 初始聚类中心 聚类算法 异常检测 数据块 信息熵 聚类 价值函数 算法 异常检测算法 迭代过程 机器学习 聚类结果 数据挖掘 随机选择 传统的 高效性 数据集 质心 保证 | ||
1.一种基信息熵聚类的异常检测算法,其特征在于,包括以下步骤:
步骤1)确定初始聚类中心个数K,聚类函数精度ε
步骤2)设置初始聚类准则函数值J0=0,数据集中每个数据点x的初始异常度Abnx=0;
步骤3)将数据对象平均分成k1(k1>k)个子集,从各个子集中随机选出一个数据对象,并将其作为聚类种子中心,扫描数据集合,根据其与各聚类中心的相似度(赋权后的欧氏距离),将其归于其最相似的簇中,形成k1个初始类簇;
步骤4)计算k1个聚类的σi,并按照σi值递增顺序排序,选取前k个σi值对应的质心作为初始聚类中心cj;
步骤5)计算所有数据集中所有数据点和各个聚类中心的欧式距离其中,i=1,2,...,n且j=1,2,...,K,m代表数据集的维度。对于数据点x,若cj使得D(xi,cj)=minD(xi,cj),j=1,2,...,K,则将点x划分到cj所代表的簇;
步骤6)在形成的K个类簇中,若属于该簇的数据点x与该聚类簇中心距离大于平均距离,即其中Nj是cj代表簇拥有数据点的总数,则Abnx++;
步骤7)若Abnx≥3,则判断x为异常点,将其从数据集中剔除,并入异常集U中;
步骤8)判断聚类准则函数
是否满足收敛条件|J′-J|≤ε(J是上次迭代聚类准则函数,J′是本次聚类准则函数值),若不满足,转步骤9)继续迭代。若满足收敛条件,则算法结束,输出各个类簇和异常点集合U;
步骤9)重新计算各类簇的聚类中心:
然后转步骤5),Nj是cj代表的簇中拥有的数据点总数。
2.根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤1)中,跟传统K-means聚类算法一样,本发明提出的算法仍需要根据实际经验提前确定聚类的个数K,以及判断聚类结果是否收敛的精度ε。
3.根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤2)中,设置每个数据点x的初始异常度Abnx=0,其作为后面判断该数据点是否为异常点的重要依据。
4.根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤3)中,将数据集随机平分,能够有效避免初始聚类中心的选择陷入局部最优的可能;
根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤4)中,同属于Tj组的ni个数据对象xi(i=1,2,...,ni)的标准差σ定义为由此可以得到赋权类别目标价值函数
σi表示第i类的赋权标准差;|Tj|是Tj所含数据对象的个数。上式可知σi的值越小,类内数据对象相似度越大,数据对象越密集,其所在类的质心越能体现分类决策面。
5.根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤5)中,在已经选出K个初始聚类中心的前提下,进一步将数据集中的点根据欧氏距离分配到离得最近的初始聚类中心所代表的类中,此过程跟传统K-means聚类算法的过程基本一致。
6.根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤6)中,定义某个数据对象x与其所在的类簇的中心的距离大于平均距离,则将初始异常度Abnx++,作为判断是否为异常点的依据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811170299.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像识别方法、装置和存储介质
- 下一篇:用于用户消息的情感分析方法及装置