[发明专利]基于信息熵聚类的异常检测方法在审

申请号：	201811170299.X	申请日：	2018-09-28
公开（公告）号：	CN109522926A	公开（公告）日：	2019-03-26
发明（设计）人：	方锡;谭文安;赵璐	申请（专利权）人：	南京航空航天大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	211100 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开的一种基于信息熵聚类的异常检测方法，属于机器学习和数据挖掘领域。本发明的异常检测算法基于聚类算法的思想，克服了传统K‑means聚类算法随机选择初始聚类中心易导致聚类结果陷入局部最优的问题，提出基于信息熵选取初始聚类中心的方法。本发明提出的方法是将数据集平均分成比K值多的数据块，进而使用熵值法得到每个数据块的目标价值函数，选取前k个目标价值函数值最小的数据块对应的质心作为初始聚类中心，利用熵值法保证了初始聚类中心选取的高效性，并在算法的迭代过程中实现了异常检测的功能。同传统的基于K‑means的聚类算法相比，本发明提出的算法无论是在聚类效果和异常检测能力上均高于传统K‑means聚类算法。有一定的实际意义。
搜索关键词：	初始聚类中心聚类算法异常检测数据块信息熵聚类价值函数算法异常检测算法迭代过程机器学习聚类结果数据挖掘随机选择传统的高效性数据集质心保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基信息熵聚类的异常检测算法，其特征在于，包括以下步骤：步骤1)确定初始聚类中心个数K，聚类函数精度ε步骤2)设置初始聚类准则函数值J0＝0，数据集中每个数据点x的初始异常度Abnx＝0；步骤3)将数据对象平均分成k1(k1＞k)个子集，从各个子集中随机选出一个数据对象，并将其作为聚类种子中心，扫描数据集合，根据其与各聚类中心的相似度(赋权后的欧氏距离)，将其归于其最相似的簇中，形成k1个初始类簇；步骤4)计算k1个聚类的σi，并按照σi值递增顺序排序，选取前k个σi值对应的质心作为初始聚类中心cj；步骤5)计算所有数据集中所有数据点和各个聚类中心的欧式距离其中，i＝1，2，...，n且j＝1，2，...，K，m代表数据集的维度。对于数据点x，若c_j使得D(x_i，c_j)＝minD(x_i，c_j)，j＝1，2，...，K，则将点x划分到c_j所代表的簇；步骤6)在形成的K个类簇中，若属于该簇的数据点x与该聚类簇中心距离大于平均距离，即其中N_j是c_j代表簇拥有数据点的总数，则Abn_x++；步骤7)若Abnx≥3，则判断x为异常点，将其从数据集中剔除，并入异常集U中；步骤8)判断聚类准则函数是否满足收敛条件|J′‑J|≤ε(J是上次迭代聚类准则函数，J′是本次聚类准则函数值)，若不满足，转步骤9)继续迭代。若满足收敛条件，则算法结束，输出各个类簇和异常点集合U；步骤9)重新计算各类簇的聚类中心：然后转步骤5)，Nj是cj代表的簇中拥有的数据点总数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811170299.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于信息熵聚类的异常检测方法在审

专利文献下载