[发明专利]一种基于大规模网络进行高效聚类方法在审
申请号: | 201810767101.X | 申请日: | 2018-07-13 |
公开(公告)号: | CN108960335A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 宁兆龙;冯玉凡;于硕;夏锋 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于大规模网络进行高效聚类方法,采取一系列网络切割方法对大规模网络进行预处理,并根据谱聚类的核心思想,首次使用三角图元作为网络聚类的最小单元对大规模网络进行并行聚类。本系统中节点簇内簇间节点连接特点定义了四个条件,对大规模网络进行切割,并利用模块度对网络划分优化,得到模块度最高的子图集。最后将三角图元作为网络最小单元进行降维并行聚类,以提高系统聚类效率。此系统在四个划分条件下进行实验,实验结果验证了本聚类系统的高效性和高精度。本发明提供了大规模网络聚类的一种新高效方法,为大规模网络数据关系挖掘提供了一种新的解决方案。 | ||
搜索关键词: | 大规模网络 聚类 最小单元 模块度 三角图 并行 切割 预处理 簇间节点 核心思想 划分条件 聚类系统 首次使用 数据关系 网络聚类 系统聚类 网络 此系统 高效性 节点簇 降维 验证 挖掘 优化 | ||
【主权项】:
1.一种基于大规模网络进行高效聚类方法,其特征在于,步骤如下:步骤1):聚类结果要求的不同,确定网络划分的条件给出四个条件包括节点和子图两个方面的连接属性,并根据选择的条件对大规模网络进行初始切割,得到网络切割之后的子图集合;对于无向无权网络G=(V,E),定义网络邻接矩阵为H={hi,j}n×n,定义为G的一个划分Gi,i∈[1,k],表示网络中的一个子图;四个条件定义如下:条件一:条件二:条件三:条件四:条件一和条件二从节点方面保证某子图内部节点具有高度的内聚性,条件三和条件四从子图的整体角度对子图分割进行限制;条件一把网络切割成许多规模较小的子图,而条件四则最终生成少量规模较大的子图;条件二和条件三则的切割结果则介于以上二者之间;根据具体聚类结果的要求不同,对条件进行选择;针对选定的切割条件,采用启发式策略,选取网络中度最大的节点作为根节点,并对其邻居节点根据切割条件进行迭代归属划分,最终得到给定输入网络子图集;当某一次迭代结束,分为两种情况:第一种无候选节点,即上一次划分的节点没有未划分的邻居节点,此时则在原网络中选择一个新的根节点,该节点需满足,节点与新子图连接的边数占其总边数的1/2,且节点度最大;此时,则继续迭代;另一种情况,没有新的子图产生,则整个迭代过程结束;步骤2):根据步骤1)中得到的网络子图集,利用模块度对子图划分结果进行优化处理;模块度是社区发现问题中,衡量网络社区划分的指标,定义如下:其中,i和j代表网络中的两个节点,hi,j为G的邻接矩阵中的值;当节点i和节点j被划分到同一个子图sisj=1,否则,该值为‑1;优化过程是通过将步骤1)中的任意两个子图进行循环合并求解模块度,若模块度增长,则将两子图进行合并,否则继续循环;最终得到模块度最大的网络划分;步骤3):步骤2)中的得到的子图集是基于网络节点的连接特性进行初始划分网络子图集包含若干规模较大的子图,并不能满足聚类的细粒度要求;本步骤分为三个子步骤:3.1)本步骤中根据传导率的概念基于三角形图元对网络建模降维,首先定义三角形图元M,方法中运用二元组M(B,A)表示图元,其中A是网络节点集合,xA是一个选择函数,set(·)表示将有序元组表示为无序集合的一种运算符;表示为set((v1,v2,…,vk))={v1,v2,…,vk},表示将节点组(v1,v2,…,vk)无序化为{v1,v2,…,vk}的过程;因此对于一个图元定义表征如下:M(B,A)={set(v),set(xA(v))|v∈Vk,v1,v2,…,vkdistinct,Av=B}根据M(B,A)对网络图元的表征,构建网络基于图元的网络邻接矩阵WM,对角矩阵DM,拉普拉斯矩阵LM以及归一化的拉普拉斯矩阵lM,定义如下:LM=DM‑WM3.2)首先计算输入网络对应的归一化的拉普拉斯矩阵lM向量对应的特征值,排序得到第二小的特征值,并获得其对应的特征向量z;通过计算对网络节点进行排序,获得有序的节点序列;3.3)对步骤2)中的网络子图集进行并行化聚类,按照步骤3.2)中的节点顺序,该过程将序列化的网络节点依次添加到新的子图中,并计算传导率,从最小的传导率节点处将输入子图进行切割;对于给定网络G和三角形图元M,基于图元的传导率定义如下:其中,表示两个簇S和之间的图元数目,等于S中的图元数目;对每一个子图进行基于图元聚类,得到最终的网络聚类集合;该网络聚类集合中的聚类簇充分考虑了网络全局性连接关系,并且运用图元代替节点作为网络分析的最小单元对网络进行聚类分析,对于网络聚类提出了结构上的连接要求。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810767101.X/,转载请声明来源钻瓜专利网。