[发明专利]一种面向混合属性的数据流自适应聚类方法在审
申请号: | 201710127480.1 | 申请日: | 2017-03-06 |
公开(公告)号: | CN106934417A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 陈晋音;林翔;郑海斌 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 杭州斯可睿专利事务所有限公司33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 混合 属性 数据流 自适应 方法 | ||
技术领域
本发明属于聚类方法领域,涉及一种面向混合属性的数据流聚类方法。
背景技术
大数据技术的发展,随之产生的数据量高速增加,聚类分析作为对各种数据的分析的重要技术再次成为研究热点。聚类分析在金融、市场营销、信息检索、信息过滤、科学观测与工程等各个领域广泛应用。混合属性数据流聚类是针对混合属性数据流,原始数据以庞大的数据流形式到达,数据流的属性大多是同时具有取值为连续数值的数值属性和代表类别或状态的分类属性这两种属性类型的混合属性,需要对这些混合属性的数据流进行预处理、聚类和知识提取。传统的聚类算法有基于划分的算法、基于层次的算法、基于密度的算法等。数据流聚类算法大体上也可以按照这种方法来区分。
基于划分的方法的典型代表是K-means算法和K-Median算法。2000年,Guha提出了一种基于K-means的单遍扫描算法来处理数据流。该算法对存储空间的需求比较低,但是,这个算法中存在一个近似的中间结果,这个中间变量会随着迭代次数的增多而变大,最终导致聚类结果的不准确;2002年,O’callaghan等通过对K-Medians算法进行扩展,提出了STREAM算法。STREAM算法采用批处理的方式处理数据,且每次处理的数据点个数都会受到内存大小的限制,无法满足数据流的数据量大、分布变化快等特点的数据流的聚类。
2003年,C.Aggarwal等在文献中提出了CluStream算法,成为扩展层次方法的典型算法。它把整个数据流聚类的过程分解成两个步骤:在线更新和离线聚类。在线更新阶段的主要工作是收集数据流中的数据和更新微簇,算法采用金字塔时间框架结构对数据进行存储,之后进行微簇的更新;离线聚类阶段的主要工作是对微簇进行宏聚类,这里的聚类方法是扩展了传统的BIRCH算法。CluStream算法是当前比较流行的数据流聚类算法之一,并且,由CluStream算法提出的这个两段处理过程现在被广泛用于各种数据流挖掘算法中。但是CluStream算法也存在一些缺点:首先该算法不能处理任意形状的簇;其次对于噪声的适应性较差;并且需要人为指定聚类微簇的数量,严重影响了原始数据聚类的形状分布。C.Aggarwal等又提出了HpStream算法,对高维数据流进行处理采用的是投影方法,经实验证明,这个算法在各个方面都比CluStream有了进一步的提高。
2006年,Cao.F等提出了DenStream算法。这是一种全新的、基于密度方法的聚类算法。该算法使用了前面提到过的CluStream算法的两段处理框架,在线阶段使用衰减窗口处理数据,生成核心微簇,离线阶段扩展了DBSCAN算法对数据进行聚类,由微簇生成宏簇。在DenStream算法中还提出了潜在簇的概念,较为妥当的处理了数据中出现的离群点。但是由于DenStream算法采用全局一致的绝对密度作为参数,所以使得聚类结果对参数的选择非常敏感。针对Den-Stream算法问题,Tang提出了一种改进DenStream算法,DenStreamII算法引入重叠因子的概念,有效解决了交叠微簇的归属问题。Zhang在顶级会议PKDD上首次提出了StrAP算法,该算法在AP算法的基础上改进,使之面向数据流对象,该算法将新到达的数据对象与当前模型匹配,匹配成功则更新微簇,否则将其视为噪声点放入暂存盒中。张建朋提出了StrDenAP算法,该算法在StrAP算法的基础上,借鉴了CluStream的两阶段框架,采用近邻传播算法,考虑数据到达时间对聚类结果的影响,算法能够取得较好的聚类效果。
发明内容
为了克服现有大多数数据流聚类方式存在的聚类中心需要人工确定、聚类准确率低、不能有效处理混合属性数据集、不同数据集聚类效果差异性大和参数依赖性大的不足,本发明提供了一种面向混合属性的数据流自适应聚类方法,具有能处理混合属性数据集、处理速度快、准确率高的特点。
本发明解决其技术问题所采用的技术方案是:
一种面向混合属性的数据流自适应聚类方法,包括以下步骤:
1)数据预处理和网格初始化,过程如下:
1.1对于一个d维数据,根据其每一维属性的性质,将该维划分为数值属性维度和分类属性维度两类,分类属性数据分为二元数据和序数型数据;对于一个数据流对象,通过查询其每一维属性的定义而确定该维属性是数值属性还是分类属性,若是分类属性,则进一步将其划分为二元属性或序数属性;当确定对象数据流每一维度的属性性质后,使用距离计算公式计算出各部分距离,并将各部分距离相加得到两数据点之间的最终距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710127480.1/2.html,转载请声明来源钻瓜专利网。