[发明专利]基于数据场划分网格的自动聚类方法有效

专利信息
申请号: 201110114544.7 申请日: 2011-05-04
公开(公告)号: CN102184216A 公开(公告)日: 2011-09-14
发明(设计)人: 王树良;陈亚森 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 张火春
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 数据 划分 网格 自动 方法
【说明书】:

技术领域

发明涉及聚类分析技术领域,尤其涉及一种基于数据场划分网格的自动聚类方法。

背景技术

聚类方法能够根据数据本身的相似性,自动地将数据分成若干个小的簇,使每个簇内部的数据之间彼此相似,而与其他簇内的数据相异。通过这样的自动聚合,聚类分析能够帮助人们发现隐藏在数据背后的潜在知识,对于信息的处理和知识的发现有着非常重要的意义。目前,聚类方法已经被广泛地应用于图像处理、异常检测、Web热点发现、社区发现、信用卡欺诈检测、商务数据分析等方面。例如,在模式识别方面,通过对图片特征向量的处理,自动将一组动物的图片自动归类为羊、狗、蛇等;在异常检测方面,通过对产品属性的聚类,自动发现其中的次品;在市场研究方面,通过对用户进行聚类来将用户自动归类,进而辅助决策者制定市场策略。

现有的聚类方法为了能够得到较好的处理效果大都采用了较为复杂的计算方式,处理速度较慢,无法适用于大规模的数据处理。另外,噪声也是影响聚类方法质量的一个重要因素。

发明内容

针对以上存在的技术问题,本发明的目的是基于数据场,提出了一种快速高效的自动聚类方法,以解决对大量数据进行聚类处理时的速度和效率问题。

为达到上述目的,本发明采用下的技术方案包括以下步骤:

步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,根并将每个数据分配到相应的网格中;

步骤2,将数据场的影响因子σ设定为步骤1所划分网格的最大边长;

步骤3,将每个网格看作一个具有一定质量的数据点,数据点的质量在数值上等于网格中包含的数据总数量,数据点的坐标为网格的重心坐标,计算由这些数据点相互作用形成的数据场在各个网格重心处的势值和一阶偏导绝对值;

步骤4,遍历步骤1划分所得每个网格,如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值,则认为该网格包含聚类中心;

步骤5,分别以步骤4找到的每个包含聚类中心的网格为起点,搜索满足条件的直接相邻网格,再以搜索到的网格为起点继续搜索满足条件的直接相邻网格,直到搜索不到满足条件的直接相邻网格为止,搜索得到的所有满足条件的网格构成聚类簇;所述条件为,势值小于作为起点的网格,并且一阶偏导绝对值大于作为起点的网格;

步骤6,计算步骤5找到的所有聚类簇中所有网格的质量平均值,将该平均值作为噪声阀值t;

步骤7,根据步骤6所得噪声阀值t,将步骤5找到的各聚类簇中的所有质量小于噪声阀值t的网格删除;

步骤8,当存在两个或者以上聚类簇包含有相同的网格时,将这两个或者以上聚类簇合并;

步骤9,将所得各聚类簇作为聚类结果输出。

本发明的技术方案与已有的聚类方法相比,利用划分网格的方式将运算复杂度降低为O(k),其中k为网格划分参数,极大地提高了方案实施的处理速度;通过一阶偏导来确定簇的中心和边缘,可以有效地避免对噪声的处理,从而使方法具有很好的健壮性。

附图说明

图1是数据场势函数的变化曲线;

图2是数据场势函数及一阶偏导绝对值的变化曲线;

图3是本发明实施例二维数据的坐标分布示意图;

图4是本发明实施例划分网格示意图;

图5是本发明实施例根据势值找到的局部聚类中心示意图;

图6是本发明实施例根据聚类中心找到的聚类网格簇示意图;

图7是本发明实施例的聚类结果示意图。

具体实施方式

受到物理学中场论的启发,王树良等提出数据场的思想。数据通过数据辐射将其数据能量从样本空间辐射到整个母体空间,接受数据能量并被数据辐射所覆盖的空间,叫做数据场。数据场可视为一个充满数据能量的空间,数据通过自己的数据场,对场中的另一数据发射能量。数据场中的数据点之间会相互辐射能量,这些能量相互叠加形成数据场的势。根据数据对象的不同,数据场的场强函数可以定义为多种形式,在本发明中采用核辐射衍生场,则相应的势函数如公式(一)。

公式(一)

其中,x,y为两个数据点,σ为数据场的影响因子,||x-y||2为两个数据点x,y之间的欧氏距离,m为数据点y的质量,e为数学常数。所求得表示数据点y在x处的影响作用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110114544.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top