[发明专利]一种基于节点Jaccard相似度的社交网络社团发现方法在审

专利信息
申请号: 201310154663.4 申请日: 2013-04-28
公开(公告)号: CN103838803A 公开(公告)日: 2014-06-04
发明(设计)人: 张小松;牛伟纳;罗强;李建彬;廖军;张可;陈瑞东;王东;李宏鸢 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都华典专利事务所(普通合伙) 51223 代理人: 徐丰;杨保刚
地址: 610000 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 节点 jaccard 相似 社交 网络 社团 发现 方法
【说明书】:

技术领域    

发明公开了一种基于节点Jaccard相似度的社交网络社团发现方法,属于复杂网络技术,具体地说是一种社交网络的社团发现技术。

背景技术

近几年,社交网络的发展如火如荼,国外的知名社交网站如Facebook、Twitter及Google+等,国内有人人网、QQ朋友网等等。从某种意义上说,社交网络是现实网络的一种映射。研究发现很多现实网络是具有社团结构的,通过分析,可以根据用户需求找到用户感兴趣的社团。现今人们对网络中的社团划分算法已经做了相当多的研究工作,已成为当前重要的学科研究领域之一。

在研究社团划分算法时,通常将网络用图来描述,即由节点集合V和边集合E组成的图G=(V,E)可表示一个网络。归纳图形分割研究而发展起来的算法如下:

Kernighan-Lin算法是一种基于贪婪算法原理的二分法。其基本原理是:定义一个增益函数 Q,Q 为两个社团内部的边数与连接两个社团之间的边数之差,之后寻找使 Q 值最大的划分方法。KL算法只采用最好的候选解,而拒绝接受所有较差的候选解,因此所找的是局部最优解而不是全局最优解。此外这种二分法最大的局限性在于事先知道社团的个数和社团的规模,用先验知识产生一个较好的初始社团结构;该算法对其初始解非常敏感,不好的初始解往往导致缓慢的收敛和较差的最终解。由此可见KL很难应用于不预先得知的网络大小的实际网络分析中。

基于 Laplace 矩阵特征值的谱平分法最先在计算机图形分割中被应用,它之所以在图形分割中有着较好的划分效果,是由于以严密的数学理论依据为指导的。它的基本思想是:基于一个无向图 G 对应的对称矩阵 L,根据它的不同特征值对应的不同特征向量来确定网络的划分。由分析可知:在复杂网络划分中可以根据网络对应的Laplace矩阵的第二小的特征值将其首先分为2个社团,再对每个社团迭代进行划分,直到划分得到实际的网络,再此迭代过程中往往出现错误的划分,效果并不理想;谱平分法每次只能将网络平分,如果一个网络存在多个社团,就必须对子社团多次重复划分,然而多次划分必然依赖于第一次划分的正确性;分析复杂网络比较耗时;所以该算法不适合多社团或者多节点存在模糊性的复杂网络。

基于层次聚类发展而来的算法有很多,这类算法主要又分为两类:

(1) 凝聚类算法,这种算法是自下而上的,其思想是首先将网络中的每个节点划分为单独的一个社团,然后基于社团聚合规则将不同的小社团聚合成更大的社团,直到满足要求为止;(2) 分裂类方法,这种算法是自上而下的,其思想是首先将整个网络看成一个社团,然后依据社团划分规则,不停的将大的社团划分为较小的社团。

GN 算法是一个基于边介数的社团发现算法,是典型的分裂方法。GN 算法的基本原理是从网络中逐步移去介数最大的边。GN 算法的基本步骤如下:

步骤 1:计算复杂网络中所有边的边介数;

步骤 2:比较网络中所有的边介数并移除边介数最高的边;

步骤 3:重复执行步骤 1 和 2,直到每个节点就是一个独立的社团。

GN算法虽然克服了之前算法仅能二分的缺点,但没有一个量的定义,即不能判断网络的社团分解到什么程度才算是最合适;而且求取边介数这一个重要步骤耗时比较长,每次移除边介数最高的边之后,都要重新计算网络的边介数。

Newman快速算法是一种典型的凝聚算法。Newman快速算法借鉴了层次聚类算法的思想,基于协调混合定义了一个衡量网络划分质量的标准,度模块。算法首先将网络中的所有节点初始化为一个社团,即初始时,一个社团只包含一个节点,此外k个社团构成的k阶方阵E=(eij)初始化为: 

其中,——网络中节点的度;

——网络的边数。

定义模块度Q增量:

算法在进行社团合并时,每次都选择使模块度增量最大的两个社团进行聚合。每次聚合之后更新矩阵E中的元素,再选择使模块度增量最大的两个社团进行聚合,重复上述步骤直到所有的社团都合并成一个社团为止。该算法虽然能较好发现实际网络中存在的社团结构,且不需要知道社团的数目和每个社团的大小,但是由于耗时大,边介数的结算量大,时间复杂度为O(n3),因此它仅适合用于中等规模的网络。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310154663.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top