[发明专利]一种面向混合属性的数据流自适应聚类方法在审
申请号: | 201710127480.1 | 申请日: | 2017-03-06 |
公开(公告)号: | CN106934417A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 陈晋音;林翔;郑海斌 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 杭州斯可睿专利事务所有限公司33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向混合属性的数据流自适应聚类方法,包括以下步骤1)数据预处理和网格初始化,确定网格在每一维属性中的划分粒度以及离线聚类过程中网格对象间的相似度;2)对网格进行在线维护;3)当用户发送聚类请求时,聚类过程由在线阶段转为离线阶段,根据网格的密度信息将网格分为密集网格和稀疏网格;对于密集网格,使用改进的DBSCAN算法进行聚类;对于稀疏网格,则使用基于密度‑距离分布的CCFD算法进行聚类,最终将得到的聚类结果输出;完成整个聚类过程。本发明具有良好的适用性和可扩展性,能够有效地处理相关数据集,取得较好的聚类结果。 | ||
搜索关键词: | 一种 面向 混合 属性 数据流 自适应 方法 | ||
【主权项】:
一种面向混合属性的数据流自适应聚类方法,其特征在于:包括以下步骤:1)数据预处理和网格初始化,过程如下:1.1对于一个d维数据,根据其每一维属性的性质,将该维划分为数值属性维度和分类属性维度两类,分类属性数据分为二元数据和序数型数据;对于一个数据流对象,通过查询其每一维属性的定义而确定该维属性是数值属性还是分类属性,若是分类属性,则进一步将其划分为二元属性或序数属性;当确定对象数据流每一维度的属性性质后,使用距离计算公式计算出各部分距离,并将各部分距离相加得到两数据点之间的最终距离;1.2根据对象数据流每一维度的属性性质,对每维属性进行划分操作以建立最小网格单元;首先,通过随机采样的方法从数据集对象当中取出总体数据的β%进行预处理分析,将所有被取出的数据点构成一个集合M;对于每一数值属性维度,分析集合M中所有数据在该维度的分布情况,统计出最大值和最小值,并根据这些信息确定网格在该维度的最小划分长度,通过最小划分长度将该维度划分成一个个区间,最终确定网格在此维度上的粒度;对于任意维分类属性维度k,无论该属性是二元属性还是序数属性,其值均在该维度上离散且有限,所以将M中所有元素在该维度上的不同值取出,构成一个集合Ik,统计Ik中的元素个数,并将其作为网格在此维度上的分类个数;1.3经过预处理分析,原本的d维空间就被划分成了一个以网格单元为单位的子空间集合;将集合M中的数据点以一定的流速流入在线网格框架,每隔单位时间统计密这段时间内数据点流入网格的分布情况;当集合M中的数据全都流入网格后,将此时密度不为零的网格作为初始网格,存入网格列表;2)网格的在线维护,过程如下:2.1当数据点Xi到达时,根据Xi的维度信息计算出与Xi对应的网格,将Xi投入网格,对网格的元组信息进行更新;2.2统计当前时刻所有数据点落入的网格的个数,计算该时刻数据点落入网格的分散程度,根据分散程度的大小,使用不同的衰减系数对这些数据进行衰减;2.3在线过程中计算网格的平均密度,设置参数μ,确定网格阈值,将所有网格划分成密集网格和稀疏网格两类;2.4根据网格阈值Dbd,计算在线检测的最短时间间隔ΔT,每隔ΔT对所有网格进行密度更新,同时计算出新的网格平均密度和网格阈值;2.5使用最低权值检测机制,对每一个网格设定一个随网格存在时间而逐渐递增的最低权值阈值函数,该值在网格密度信息更新时同步更新,若更新后的网格密度小于该最小权值,则说明网格已过时或包含噪声点,将该网格删除;3)离线聚类,当用户向系统发送请求时,将统计当前时刻的网格信息进行离线聚类操作,过程如下:3.1从数据空间中寻找到一个密集网格g,以网格g为本次聚类的起始点开始聚类,按照广度优先搜索原则,寻找到密集网格g直接相邻的密集网格gi,然后对每个gi网格单元继续进行广度优先搜索,直到所有到网格g相邻可达的密集网格单元被搜索到为止;当一次聚类过程结束时,从剩余的未聚类密集网格中找出新的网格继续聚类,重复上述步骤,直到剩余的网格中不包含密集网格为止;3.2将经在线过程统计后的所有网格作为输入,通过基于密度‑距离的参数自适应聚类方法寻找出最优dc,当dc确定后,计算出每个数据点的密度值ρ和最近邻数据点δ,根据ρ和δ值将所有稀疏网格进行划分,完成对稀疏网格的聚类;3.3输出聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710127480.1/,转载请声明来源钻瓜专利网。