[发明专利]一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法在审

专利信息
申请号: 201811114506.X 申请日: 2018-09-25
公开(公告)号: CN109214462A 公开(公告)日: 2019-01-15
发明(设计)人: 毛克明;刘舒琦;马卿云 申请(专利权)人: 东北大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/26
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 李运萍
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 聚类结果 在线聚类 空间数据流 数据流 空间数据 集群 算法 分布式集群 聚类处理 聚类分析 数据挖掘 顺序访问 应用场景 大数据 分发源 下空间 源数据 聚类 全局 分发 分区 合成 场景 返回 更新 分析 生产
【权利要求书】:

1.一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法,其特征在于:该方法包括以下步骤:

历史数据:动态应用环境中处于数据序列前部的部分空间数据;

距离阈值∈:设定的邻域半径为∈,距离的度量方式为欧几里得距离;

邻域样本数阈值MinPts:给定点在∈邻域内成为核心点的最小邻域点数;

工作节点样本数阈值MaxPoints:集群内工作节点支持处理的最大点数;

边界矩形BoundingRectangle:能够包含数据集全部数据点的最小矩形边界框;

分区partitions:对边界矩形或初始分区划分得到的区域;

∈-邻域:对于xj∈D,其∈-邻域包含样本集D中与xj距离不大于∈的子样本集,即N(xj)={xi∈D|distance(xi,xj)≤∈},子样本集的个数记为|N(xj)|;

核心点CPRE:对于任一样本xj∈D,如果其∈邻域对应的N(xj)至少包含MinPts个样本,即如果|N(xj)|≥MinPts,则xj是核心点;

密度直达:如果xi位于xj的∈-邻域中,且xj是核心点,则称xi由xj密度直达;

密度可达:对于xi和xj,如果存在样本序列p1,p2,…,pn,满足p1=xi,pn=xj,且pn由pn-1密度直达,则称xi由xj密度可达;

密度相连:对于xi和xj,如果存在核心点xk,使xi和xj均由xk密度可达,则称xi和xj是密度相连;

聚类cluster:对于样本集D中的子集C,若任意两个样本都密度相连,则称C为一个聚类;

边缘点BORDER:若样本xi∈C,并且xi不是核心点,则称xi是边缘点;

噪声NOISE:若样本xi是边缘点,并且不属于任一聚类,则称xi是噪声;

局部聚类编号clusterId:分区中聚类的编号;

全局聚类编号globalClusterId:全部数据集中聚类的编号;

步骤2、根据集群中每个工作节点的硬件属性设置工作节点样本数阈值MaxPoints;

步骤3、遍历历史数据,根据数据分布特征确定DBSCAN方法的两个参数,距离阈值∈与邻域样本数阈值MinPts;

步骤3.1、基于k-均值算法对数据集S聚类,得到聚类集合{C1,C2,…,Ck};

步骤3.2、对于聚类Ci,计算集合内任意两个样本的距离,得到距离集合Di={d1,d2,…,dh,…},其中1≤h≤ni·(ni-1)/2;

步骤3.3、统计距离集合Di中最大值max(Di)与最小值min(Di),将其差值平均划分为w个区间,每个小区间的长度为Δdi=(max(Di)-min(Di))/w;

步骤3.4、统计每个小区间中包含样本数最多的区间编号j;

步骤3.5、设置区间编号为j的样本距离中心值∈i=min(Di)+j·Δdi-Δdi/2,作为聚类Ci的距离阈值参数∈i

步骤3.6、统计聚类Ci中全部样本点在∈-邻域内的样本个数,将其最小值设置为聚类Ci的邻域样本数阈值MinPts;

步骤3.7、遍历聚类集合{C1,C2,…,Ck},对每个聚类执行步骤3.2至步骤3.6,选择各聚类返回MinPts的最大值作为整个数据集的邻域样本数阈值MinPts,保存各聚类返回的距离阈值∈i

步骤4、遍历历史数据,根据全部数据点在各维度的坐标取值范围,提取历史数据集的边界矩形BoundingRectangle;

步骤5、根据二元空间分割树BSP(Binary Space Partition)的分区规则,递归划分步骤4得到的边界矩形BoundingRectangle,直到满足递归结束条件时终止,返回分区结果partitions={r1,r2,…,rn};

步骤5.1、初始设置待分割区域集合needingSplit={BoundingRectangle},分区集合

步骤5.2、如果待分割区域r∈needingSplit,满足集合内样本个数POINTSIN(r)超过工作节点样本数阈值MaxPoints,并且待分割区域的长度大于2倍的距离阈值∈,即POINTSIN(r)≥MaxPoints and LENGTH(r)≥2∈,执行步骤5.3,否则执行步骤5.5;

步骤5.3、将区域S划分为互补的两个样本数大致相同的区域S1,S2,满足

步骤5.4、将步骤5.3划分出的两个区域S1,S2,加入集合待分割区域集合needingSplit,即needingSplit=needingSplit∪{S1,S2};

步骤5.5、将当前待分割区域加入分区集合partitions,即partitions=partition∪{current};

步骤5.6、遍历待分割区域集合needingSplit,对于每个待分割区域,执行步骤5.2至5.5;

步骤5.7、返回分区集合partitions;

步骤6、对于每个分区,向外扩展距离阈值∈的大小得到扩展分区集合expandedPartitions,使各个分区间出现重叠,在重叠区域内的数据点将同时属于两个分区;

步骤7、提交历史数据集DataSet={p1,p2,…,pn}到多节点集群,通过并行化DBSCAN方法,分布式计算历史数据集的每个分区中数据点对应的聚类编号clusterId,与数据点类型;

步骤7.1、初始设置标记数据集合采用points集合存储每个扩展分区expandedPartition的全部样本点,作为传统DBSCAN方法的输入数据集;

步骤7.2、对每个分区的数据集,采用传统DBSCAN方法聚类;

步骤7.3、遍历步骤6得到的扩展分区集合expandedPartitions,并行计算多个分区中points集合的聚类结果,并合并返回结果到标记数据集合labeledPoints,即labeledPoints=labeledPoints∪DBSCAN(points,∈,MinPts);

步骤8、保存分区编号与分区中各维度坐标取值范围的映射;

步骤9、对于新到达的空间数据,确定其属于的分区,返回分区编号;

步骤10、若分区加入新数据点后,满足划分条件,则按照步骤5的方法继续划分;否则,执行步骤11;

步骤11、对加入新数据点的分区,再次使用并行化DBSCAN方法分布式计算新到达的数据点对应的聚类编号clusterId与数据点类型(核心点、边缘点或噪声);并更新分区内原有数据点的聚类编号clusterId与数据点类型;

步骤11.1、获取新样本点p的∈-邻居点;

步骤11.2、更新样本点p的∈-邻居点的聚类信息;随着样本点的插入,在原始聚类结果的基础上,可能会出现以下的情况:添加噪声点、形成新的聚类、归入现有聚类、合并多个聚类;

步骤11.3、对样本点p做聚类处理,在完成步骤11.2后,样本点p在修正过程中可能被划分到多个聚类中,根据不同情况,对样本点p做不同处理,与步骤11.2处理方式相同;

步骤12、对于源源不断到达地新数据点,循环执行步骤9至步骤11;

步骤13、遍历全部分区,根据数据点原有的局部聚类编号clusterId,对每个数据点重新赋予唯一的、全局性的全局聚类编号globalClusterId;

步骤13.1、合并相互重叠的扩展分区内的样本点为相同聚类,对于相互重叠∈的扩展分区集合expandedPartition{p1,p2,…,pn},若重叠区域内的样本点属于不同分区,并且不是噪声时,合并多个分区内的样本点为相同聚类,具有同一聚类编号;

步骤13.2、顺序访问集群的全部节点,遍历各个样本点point、聚类编号clusterId、分区编号partitionId的组合,为每个样本点设置全局的、唯一的全局聚类编号globalClusterId;

步骤13.1、对于相互重叠∈的扩展分区集合expandedPartition{p1,p2,…,pn},若重叠区域内的样本点属于不同分区,并且不是噪声时,合并多个分区内的样本点为相同聚类,具有同一聚类编号;

步骤13.2、顺序访问各个样本点point、聚类编号clusterId、分区编号partitionId的组合,为每个样本点设置全局的、唯一的全局聚类编号globalClusterId。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811114506.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top