[发明专利]一种基于密度峰的动态图聚类方法在审
申请号: | 201910080266.4 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109886313A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 谷峪;吴长发;于戈 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于密度峰的动态图聚类方法,用于对动态图进行聚类,实时返回聚类结果以及发现簇演化事件,其中聚类结果包括图中的簇、异常顶点以及桥顶点。包括静态图聚类方法和动态图聚类方法两部分,分为初始化和动态检测两个阶段。在初始化阶段,计算顶点的局部密度、依赖顶点和依赖相似度;为提升算法效率,生成DP‑Index索引;生成决策图,通过决策图得到密度峰顶点和噪声顶点;基于密度峰思想获得簇结果集、异常顶点集以及桥顶点集;根据聚类结果创建依赖图,为动态图聚类打下基础。在动态更新阶段,根据顶点的插入或删除和边的插入或删除更新DP‑Index索引以及依赖图;根据依赖图以及依赖图的动态变化获得聚类结果以及簇演化事件。 | ||
搜索关键词: | 聚类 动态图 聚类结果 依赖图 演化事件 异常顶点 决策图 索引 删除 初始化阶段 动态变化 动态更新 动态检测 算法效率 初始化 结果集 静态图 相似度 峰顶 噪声 返回 更新 创建 发现 | ||
【主权项】:
1.一种基于密度峰的动态图聚类方法,其特征在于,包括以下步骤:步骤1:对图中的每对邻接顶点计算结构相似度,所采用的结构相似度公式为:其中,N[u]表示顶点u的结构邻居,对于一个图G(V,E),即N[u]={v∈|(u,v)∈E}∪{u},N[v]表示顶点v的结构邻居,deg[u]表示顶点u的度数,顶点u的度数为顶点u结构邻居的个数,deg[v]表示顶点v的度数;之后对所有顶点之间的结构相似度进行降序排列,取结构相似度降序排列20%处的值为相似度阈值σt,用m表示图中所有边的个数,设标号k表示相似度阈值在结构相似度降序排列后所对应的结构相似度序号,则k应该满足:步骤2:依次计算图中每个顶点的三个度量:局部密度,依赖顶点以及依赖相似度;步骤2‑1:局部密度公式作为整个算法的基础,是能否实现在图上实现聚类的关键因素,本专利作为基于结构的图聚类算法,首先要考虑顶点的局部结构,定义任意一个顶点的局部密度包括该顶点与其所有结构邻居之间的结构相似度,设计连续化函数并将标准正态分布作为μuv在局部密度公式中的权重,将μuv的取值范围设为0<μuv≤2,以排除不满足此取值范围的结构相似度,根据结构相似度,局部密度计算公式为:步骤2‑2:将顶点u的邻居顶点中局部密度比u大且与u结构相似度最高的顶点称为u的依赖顶点,记为将u与之间的结构相似度称为依赖相似度,记为δu,计算公式为:其中N(u)表示顶点u的开放邻居,对于一个图G(V,E),即N(u)={v∈V|(u,v)∈E},如果顶点u的邻居顶点中不存在局部密度比u大的顶点,则设δu=0,且对于一个顶点u,如果有两个甚至更多的依赖顶点,那算法将从中随机挑选一个作为顶点u的依赖顶点;步骤3:根据每个顶点的三个度量对整个图建立DP‑Index索引,DP‑Index索引包括图中的每个顶点以及每个顶点的局部密度、依赖顶点以及依赖相似度,最后对索引中的顶点根据它们的局部密度进行降序排列,基于DP‑Index索引,本专利中静态图聚类算法的时间复杂度为O(n),其中n为顶点的数量;步骤4:根据步骤2‑1以及2‑2中定义的局部密度ρ以及依赖相似度δ,以ρ为横坐标,δ为纵坐标,生成为图设计的决策图,然后根据决策图将局部密度大于等于ξ且依赖相似度小于γ的顶点选入密度峰顶点集,将局部密度小于ξ的顶点选入噪声顶点集;步骤5:首先为密度峰顶点集中每个顶点分配一个簇,然后对于不属于密度峰顶点集以及噪声顶点集的每一个顶点,按照顶点的局部密度的降序排列顺序进行遍历,并将每个顶点分配到邻居顶点中局部密度比其大、结构相似度最高的顶点所属的簇中,最终得到簇结果集;步骤6:对噪声顶点集中的顶点进行进一步划分,如果噪声顶点集中某顶点u的邻居属于不同的簇,那么这个顶点u就被选入到桥顶点集,否则就被选入到异常顶点集;步骤7:根据DP‑Index索引、密度峰顶点集和噪声顶点集获得依赖图,首先初始化一个依赖图G′(V′,E′),设顶点集V′和边集E′为空,之后如果原图G(V,E)中一个顶点u属于密度峰顶点集或噪声顶点集,则将顶点u加入到依赖图G′中,否则将这个顶点u以及边加入到依赖图G′中;此时,依赖图中的每个连通分量都对应着一个簇,每一个孤立的顶点均属于噪声顶点;步骤8:在动态检测阶段,考虑动态图的四种变化:增加或删除边以及增加或删除顶点,根据上述四类变化分别实时更新DP‑Index索引;增加边:当增加边(u,v)时,顶点u和顶点v的顶点度数加1,然后对顶点u和顶点v进行进一步的更新操作,对于顶点u,重新计算顶点u与邻居顶点的结构相似度,更新顶点u和邻居顶点的局部密度,之后更新顶点u、邻居顶点以及邻居顶点的邻居顶点的依赖顶点以及依赖相似度,最后根据顶点变化后的度量对DP‑Index进行更新;顶点v的更新操作同顶点u;删除边:当删除边(u,v)时,操作类似于增加边,顶点u和顶点v的顶点度数减1,然后对顶点u和顶点v进行进一步的更新操作,对于顶点u,重新计算顶点u与邻居顶点的结构相似度,更新顶点u与邻居顶点的局部密度,之后更新顶点u、邻居顶点以及邻居顶点的邻居顶点的依赖顶点以及依赖相似度,最后根据顶点变化后度量对DP‑Index进行更新;顶点v的更新操作同顶点u;增加顶点:当增加顶点u时,初始化顶点u的局部密度,依赖顶点和依赖相似度,并加入到DP‑Index索引中;删除顶点:当删除顶点u时,对每一个顶点u与邻居顶点v之间的边(u,v)执行删除边操作,之后将顶点u从DP‑Index索引中删除;步骤9:根据DP‑Index索引发生的变化,对依赖图进行更新,依赖图的更新主要分为以下5种情况:非噪声顶点变成噪声顶点:当非噪声顶点u变成噪声顶点时,如果在依赖图中存在边则删除边噪声顶点变成非噪声顶点:当噪声顶点u变成非噪声顶点时,如果顶点u变化后不为密度峰顶点,在依赖图中加入边密度峰顶点变成非密度峰顶点:密度峰顶点u变成非密度峰顶点时,如果顶点u变化后不为噪声顶点,在依赖图中加入边非密度峰顶点变成密度峰顶点:如果非密度峰顶点u不为噪声顶点,顶点u变成密度峰顶点时,在依赖图中删除边顶点的依赖顶点发生变化:如果顶点u不为噪声顶点或密度峰顶点,且顶点u的依赖顶点从变成则在依赖图中删除边加入边最后,通过获取依赖图中的连通分量就可以得到实时聚类结果;监控依赖图中连通分量的变化便可以获得簇演化事件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910080266.4/,转载请声明来源钻瓜专利网。