[发明专利]一种改进的全局最优化k‑modes聚类方法在审

专利信息
申请号: 201710177995.2 申请日: 2017-03-23
公开(公告)号: CN107122793A 公开(公告)日: 2017-09-01
发明(设计)人: 黄昌浩;肖依永 申请(专利权)人: 北京航空航天大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京慧泉知识产权代理有限公司11232 代理人: 王顺荣,唐爱华
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 改进 全局 优化 modes 方法
【说明书】:

一、所属技术领域:

发明提供一种能保证k-众数(即k-modes)聚类得到最优解的方法,解决了传统k-modes聚类算法对初始解敏感和难以获得全局最优解。本方法属于数据分析与挖掘领域,能使从事数据处理人员取得更加优化的聚类效果。

二、背景技术:

现在正处于数据的时代,每天来自各方面的数据都在涌入我们的计算机、网络以及各类数据储存设备。而且现在数据规模的急剧增加以及对数据的广泛使用,都使我们需要一种功能强大和通用的工具,能够高效得处理所面临的的爆炸式的数据。为了应对处理各类数据问题,然后把不同的数据转化成有用的知识,数据挖掘方法由此孕育而生。

聚类分析是上面提到的数据挖掘方法中最基础同时也是最重要的技术之一。聚类技术是指数据对象的集合根据最大化类内相似性、最小化类间相似性的原则组成多个类的过程。也就是说,最终处于同一个簇中的数据对象具有较高相似性,而与其他簇中的对象很不相似。现目前基本的聚类算法可划分为如下几类:划分方法、层次方法、基于密度方法、基于网格方法。划分方法是一种最基本也是最实用的聚类算法,也是后续分析的基础环节。我们常用的k-modes算法是处理分类型数据的一种经典划分方法。但是它是一种基于非线性整数规划模型,这就带来了两个很难解决的问题,(1)因为需要设置初始值,所以对于初始值选择的不同会影响到最后的聚类结果,使得整个聚类算法不具有稳定性。(2)算法过程经常会陷入局部最优解,难以得到全局最优解。

本发明基于整数规划(即IP)模型将k-modes聚类问题转化成线性规划模型,并省去初始解设置的过程,而且因为整个过程是线性的,所以也能够得出全局最优解。从而完美解决了之前提到的两个问题。该方法通过一种描述并求解大规模复杂数学问题的建模语言(A Mathematical Programming Language即AMPL),然后调用混合整数规划(即MIP)求解器(如CPLEX、Lingo)来完成中等规模的聚类计算。本发明是一种改进的全局最优化聚类方法,本方法首先提出了一种新的分类型数据集表达形式,然后利用新的表达形式建立了k-modes的整数线性规划模型。

三、发明内容:

3.1发明目的

本发明的目的在于解决传统k-modes方法一直所面临的缺点,提出一种能得到全局最优解且稳定的聚类方法,为从事数据挖掘和大数据分析的相关人员提供能取得更好聚类效果方案。

3.2技术方案

对所面对的问题抽象如下:假设数据集X包含n个数据对象X={X1,X2,…,Xn}。每个数据对象被m个属性A1,A2…,Am描述。这样每个数据对象Xi能被表达成Xi={xi1,xi2,…,xim},因为k-modes算法针对的是分类型属性值,所以这里每个分类属性Aj有一个值域pj是分类值的数目。这里假定簇个数k已经预先给定,k-modes算法就是把提到的数据对象X聚集成l(l≤n)个簇。k-modes算法思想就是先找出l个聚类中心{C1,C2,…,Cl},使得每个数据对象与它最近的聚类中心的距离dXiCj之和最小,并将这个组内距离和称之为目标函数,这里的dXiCj也可称为两个对象之间的不相似度度量。然后根据分组情况重新定义每组的聚类中心。之后重复前一步的分组步骤,最后反复这两个步骤直到收敛。聚类的目标即为使各组组内距离之和最小。

下面将给出技术方案中用到的数学符号,如下:

本发明一种改进的全局最优化k-modes聚类方法,其步骤如下:

步骤一:数据预处理

对需要被聚类分组的n个物体进行编号,编号值从1到n;用yij表示数据对象i的第j属性的取值;这里的分类型数据采用1,2,3…数字型分别进行代替;比如属性Aj,值域为Vj,具有qj个分类型数据,这时用{1,2,3…qj}分别表示各分类型属性值;记录需要聚类的数目;

步骤二:建立线性化的k-modes数学规划模型

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710177995.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top