[发明专利]一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法在审
申请号: | 201811114506.X | 申请日: | 2018-09-25 |
公开(公告)号: | CN109214462A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 毛克明;刘舒琦;马卿云 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/26 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法,涉及数据挖掘和大数据分析领域。该方法针对特定生产场景中的空间数据,搭建分布式集群,进行分布式在线聚类处理,将源数据分区并分发到集群的各个节点采用DBSCAN聚类处理,通过新到达的空间数据更新原始聚类结果,通过顺序访问集群各个节点的聚类结果,为每个数据点标记全局唯一的聚类编号。本发明的方法能够自动划分、分发源数据,合成局部聚类结果并返回全局聚类结果,从而满足缩短处理时间与适应数据流的要求,为大规模实际应用场景下空间数据流的聚类分析奠定基础。 | ||
搜索关键词: | 聚类结果 在线聚类 空间数据流 数据流 空间数据 集群 算法 分布式集群 聚类处理 聚类分析 数据挖掘 顺序访问 应用场景 大数据 分发源 下空间 源数据 聚类 全局 分发 分区 合成 场景 返回 更新 分析 生产 | ||
【主权项】:
1.一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法,其特征在于:该方法包括以下步骤:历史数据:动态应用环境中处于数据序列前部的部分空间数据;距离阈值∈:设定的邻域半径为∈,距离的度量方式为欧几里得距离;邻域样本数阈值MinPts:给定点在∈邻域内成为核心点的最小邻域点数;工作节点样本数阈值MaxPoints:集群内工作节点支持处理的最大点数;边界矩形BoundingRectangle:能够包含数据集全部数据点的最小矩形边界框;分区partitions:对边界矩形或初始分区划分得到的区域;∈‑邻域:对于xj∈D,其∈‑邻域包含样本集D中与xj距离不大于∈的子样本集,即N∈(xj)={xi∈D|distance(xi,xj)≤∈},子样本集的个数记为|N∈(xj)|;核心点CPRE:对于任一样本xj∈D,如果其∈邻域对应的N∈(xj)至少包含MinPts个样本,即如果|N∈(xj)|≥MinPts,则xj是核心点;密度直达:如果xi位于xj的∈‑邻域中,且xj是核心点,则称xi由xj密度直达;密度可达:对于xi和xj,如果存在样本序列p1,p2,…,pn,满足p1=xi,pn=xj,且pn由pn‑1密度直达,则称xi由xj密度可达;密度相连:对于xi和xj,如果存在核心点xk,使xi和xj均由xk密度可达,则称xi和xj是密度相连;聚类cluster:对于样本集D中的子集C,若任意两个样本都密度相连,则称C为一个聚类;边缘点BORDER:若样本xi∈C,并且xi不是核心点,则称xi是边缘点;噪声NOISE:若样本xi是边缘点,并且不属于任一聚类,则称xi是噪声;局部聚类编号clusterId:分区中聚类的编号;全局聚类编号globalClusterId:全部数据集中聚类的编号;步骤2、根据集群中每个工作节点的硬件属性设置工作节点样本数阈值MaxPoints;步骤3、遍历历史数据,根据数据分布特征确定DBSCAN方法的两个参数,距离阈值∈与邻域样本数阈值MinPts;步骤3.1、基于k‑均值算法对数据集S聚类,得到聚类集合{C1,C2,…,Ck};步骤3.2、对于聚类Ci,计算集合内任意两个样本的距离,得到距离集合Di={d1,d2,…,dh,…},其中1≤h≤ni·(ni‑1)/2;步骤3.3、统计距离集合Di中最大值max(Di)与最小值min(Di),将其差值平均划分为w个区间,每个小区间的长度为Δdi=(max(Di)‑min(Di))/w;步骤3.4、统计每个小区间中包含样本数最多的区间编号j;步骤3.5、设置区间编号为j的样本距离中心值∈i=min(Di)+j·Δdi‑Δdi/2,作为聚类Ci的距离阈值参数∈i;步骤3.6、统计聚类Ci中全部样本点在∈‑邻域内的样本个数,将其最小值设置为聚类Ci的邻域样本数阈值MinPts;步骤3.7、遍历聚类集合{C1,C2,…,Ck},对每个聚类执行步骤3.2至步骤3.6,选择各聚类返回MinPts的最大值作为整个数据集的邻域样本数阈值MinPts,保存各聚类返回的距离阈值∈i;步骤4、遍历历史数据,根据全部数据点在各维度的坐标取值范围,提取历史数据集的边界矩形BoundingRectangle;步骤5、根据二元空间分割树BSP(Binary Space Partition)的分区规则,递归划分步骤4得到的边界矩形BoundingRectangle,直到满足递归结束条件时终止,返回分区结果partitions={r1,r2,…,rn};步骤5.1、初始设置待分割区域集合needingSplit={BoundingRectangle},分区集合
步骤5.2、如果待分割区域r∈needingSplit,满足集合内样本个数POINTSIN(r)超过工作节点样本数阈值MaxPoints,并且待分割区域的长度大于2倍的距离阈值∈,即POINTSIN(r)≥MaxPoints and LENGTH(r)≥2∈,执行步骤5.3,否则执行步骤5.5;步骤5.3、将区域S划分为互补的两个样本数大致相同的区域S1,S2,满足
步骤5.4、将步骤5.3划分出的两个区域S1,S2,加入集合待分割区域集合needingSplit,即needingSplit=needingSplit∪{S1,S2};步骤5.5、将当前待分割区域加入分区集合partitions,即partitions=partition∪{current};步骤5.6、遍历待分割区域集合needingSplit,对于每个待分割区域,执行步骤5.2至5.5;步骤5.7、返回分区集合partitions;步骤6、对于每个分区,向外扩展距离阈值∈的大小得到扩展分区集合expandedPartitions,使各个分区间出现重叠,在重叠区域内的数据点将同时属于两个分区;步骤7、提交历史数据集DataSet={p1,p2,…,pn}到多节点集群,通过并行化DBSCAN方法,分布式计算历史数据集的每个分区中数据点对应的聚类编号clusterId,与数据点类型;步骤7.1、初始设置标记数据集合
采用points集合存储每个扩展分区expandedPartition的全部样本点,作为传统DBSCAN方法的输入数据集;步骤7.2、对每个分区的数据集,采用传统DBSCAN方法聚类;步骤7.3、遍历步骤6得到的扩展分区集合expandedPartitions,并行计算多个分区中points集合的聚类结果,并合并返回结果到标记数据集合labeledPoints,即labeledPoints=labeledPoints∪DBSCAN(points,∈,MinPts);步骤8、保存分区编号与分区中各维度坐标取值范围的映射;步骤9、对于新到达的空间数据,确定其属于的分区,返回分区编号;步骤10、若分区加入新数据点后,满足划分条件,则按照步骤5的方法继续划分;否则,执行步骤11;步骤11、对加入新数据点的分区,再次使用并行化DBSCAN方法分布式计算新到达的数据点对应的聚类编号clusterId与数据点类型(核心点、边缘点或噪声);并更新分区内原有数据点的聚类编号clusterId与数据点类型;步骤11.1、获取新样本点p的∈‑邻居点;步骤11.2、更新样本点p的∈‑邻居点的聚类信息;随着样本点的插入,在原始聚类结果的基础上,可能会出现以下的情况:添加噪声点、形成新的聚类、归入现有聚类、合并多个聚类;步骤11.3、对样本点p做聚类处理,在完成步骤11.2后,样本点p在修正过程中可能被划分到多个聚类中,根据不同情况,对样本点p做不同处理,与步骤11.2处理方式相同;步骤12、对于源源不断到达地新数据点,循环执行步骤9至步骤11;步骤13、遍历全部分区,根据数据点原有的局部聚类编号clusterId,对每个数据点重新赋予唯一的、全局性的全局聚类编号globalClusterId;步骤13.1、合并相互重叠的扩展分区内的样本点为相同聚类,对于相互重叠∈的扩展分区集合expandedPartition{p1,p2,…,pn},若重叠区域内的样本点属于不同分区,并且不是噪声时,合并多个分区内的样本点为相同聚类,具有同一聚类编号;步骤13.2、顺序访问集群的全部节点,遍历各个样本点point、聚类编号clusterId、分区编号partitionId的组合,为每个样本点设置全局的、唯一的全局聚类编号globalClusterId;步骤13.1、对于相互重叠∈的扩展分区集合expandedPartition{p1,p2,…,pn},若重叠区域内的样本点属于不同分区,并且不是噪声时,合并多个分区内的样本点为相同聚类,具有同一聚类编号;步骤13.2、顺序访问各个样本点point、聚类编号clusterId、分区编号partitionId的组合,为每个样本点设置全局的、唯一的全局聚类编号globalClusterId。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811114506.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种重建光场的方法及装置
- 下一篇:一种基于协同训练的地形分类方法