[发明专利]基于多智能体进化的聚类和离群点检测方法在审
申请号: | 201610846226.2 | 申请日: | 2016-09-23 |
公开(公告)号: | CN106649456A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 刘静;焦李成;陈德学 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 田文英,王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 进化 离群 检测 方法 | ||
技术领域
本发明属于计算机数据处理技术领域,更进一步涉及数据聚类和离群点检测技术领域中一种基于多智能体进化的聚类和离群点检测方法。本发明采用多智能体进化和局部离群点检测的技术,有利于提高聚类划分和离群点检测精度。本发明可用于自然数据的聚类和离群点检测。
背景技术
离群点检测和聚类分析是数据挖掘和知识发现的一个重要研究领域。在实际应用中,离群点检测被广泛地应用到各个领域,如欺骗信用卡检测、侵入检测、网络和视频监控、天气预报。离群点的本质是由不同于一般的机制原理生成的现象,也被叫为异常点、孤立点。离群点检测在实际用中往往比一般数据检测更有价值,例如在机器故障检测,医疗诊断,欺诈检测,通常出现异常现象的数据点较少,正常运行的数据点较多。目前,离群点挖掘作为数据挖掘的一个热门研究方向,已经引起了很多学者的关注。
钱光超,贾瑞玉,张然和李龙澍在其发表的论文“基于遗传聚类算法的离群点检测”(工程优化与应用1002-833(2008)11-0155-03)中提出了一种基于遗传聚类的离群点检测算法。该方法的核心是结合了遗传算法全局搜索的优点和K-均值方法具有局部收敛速度快的特点。具体的做法是首先聚类所有数据点,然后评估每个对象属于簇的程度,如果删除一个对象导致该目标的显著改进,则可将该对象划为离群点。该方法存在的不足之处是:遗传算法容易陷入局部最优的情况,使得最终的划分解并不是最优解,稳定性不高。
张强,王春霞,赵健,武龙举和李静永在其发表的论文“基于聚类和局部信息的离群点检测算法”(吉林大学学报章编号:1671-5489(2012)06-1214-04)中提出了一种基于聚类和局部信息的两阶段离群点检测算法。该方法通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准。具体的做法是:先采用k-means聚类算法对数据集进行聚类的到k个簇;然后对每个簇进行分析,找出离群点。每个离群点的确定方法是先通过计算簇中各关节点的局部离群因子,并记录每个簇中离群因子值最大的一个,再从簇中删除,然后重新计算直到离群点的个数达到指定个数离群点为止。该方法采用k-means聚类算法对数据集进行聚类,虽然k-means算法比较简单,但是,该方法仍然存在的不足之处是,划分数据效率不高,收敛速度慢;一旦某个数据点被认为是离群点就不能在下一代执行,导致该算法准确率降低。
Lian Duan,Lida Xu,Ying Liu和Jun Lee在其发表的论文“Cluster-based outlier detection”(Springer Science&Business Media,pp.151-168,2009)中提出了一种基于聚类的离群点检测算法。该方法采用LDBSCAN算法进行聚类和LOF算法检测离群点。具体的做法是:先采用LDBSCAN算法进行聚类,然后进行计算每个对象的基于聚类利群因子,一个被认为是一个离群点仅当它偏离它的最近的邻域点。该方法存在的不足之处是,在算法中,参数需要有经验的研究者设置,计算量比较高(N×N),使得算法执行时间长,效率不高。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于多智能体进化的聚类和离群点检测方法,以提高离群点检测的精度,减少计算时间,同时改善数据聚类的效率。
实现本发明目的的具体思路是:利用多智能体进化算法和K-means聚类算法对输入数据集进行聚类。从多智能体网格中找到最优的智能体,根据最优智能体中所分配的类,再利用局部离群程度计算方法计算数据点的离群程度值。
实现本发明目的的具体步骤如下:
(1)初始化:
(1a)从待检测数据集中随机选择满足智能体的聚类个数,对网格中的每个智能体进行实数编码,每个智能体代表一条染色体,每个聚类中心的位置代表一个基因,完成网格的初始化;
(1b)将待检测数据集中的所有点设定为非离群点;
(1c)将离群点数据集设定为空集;
(1d)将初次迭代次数设定为0,最大迭代次数设定为100;
(2)对每个智能体执行K-means聚类算法:
(2a)从待检测数据集中任选一个点作为待计算点;
(2b)利用欧式距离公式,计算待计算点到每一个聚类中心的距离;
(2c)将每一个待检测数据集中的点,分配到与聚类中心距离最近的类;
(2d)判断是否选完待检测数据集中所有的点,若是,执行步骤(3),否则,则执行步骤(2a);
(3)计算智能体的能量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610846226.2/2.html,转载请声明来源钻瓜专利网。