[发明专利]一种基于spark平台的内存迭代的重叠社区并行发现方法有效

申请号：	201510435886.7	申请日：	2015-07-22
公开（公告）号：	CN105069039B	公开（公告）日：	2018-05-18
发明（设计）人：	郭山清;鲁宗飞;崔立真;许信顺;刘士军;王昌圆;杨伯宇;陶立冬;田燕琛;李文哲	申请（专利权）人：	山东大学;济南市公安局
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张勇
地址：	250061 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于spark平台的内存迭代的重叠社区并行发现方法，步骤如下：在配置有spark环境的计算集群上，通过GraphX读取原始社区网络数据，构造图实例；通过GraphX并行计算出图实例中每个顶点的邻居节点的集合，作为图实例中每个顶点的属性；将图实例的每条边初始为一个社区，根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度；寻找相似度最大的两个社区，将这两个社区合并为新的社区；更新社区相似度集合；使用分割密度公式计算此次社区划分的分割质量；判断目前社区数量是大于1还是等于1，如果等于1，就获得分割质量最大的社区划分。
搜索关键词：	一种基于 spark 平台内存重叠社区并行发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，包括如下步骤：步骤(1)：在配置有spark环境的计算集群上，通过GraphX读取原始社区网络数据，构造图实例；步骤(2)：通过GraphX并行计算出图实例中每个顶点的邻居节点的集合，作为图实例中每个顶点的属性；步骤(3)：将图实例的每条边初始为一个社区，根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度；步骤(4)：寻找相似度最大的两个社区，将这两个社区合并为新的社区；步骤(5)：更新社区相似度集合；步骤(6)：使用分割密度公式计算此次社区划分的分割质量；所述步骤(6)步骤为：计算每个社区的分割密度；对以社区为元素组成的RDD使用map框架，然后计算整个网络的分割密度；步骤(6)的计算每个社区的分割密度公式为： D c = m c - ( n c - 1 ) n c ( n c - 1 ) / 2 - ( n c - 1 ) - - - ( 3 ) ]]>网络G中子图Gc有mc条边，mc＝|Gc|，nc为子图Gc中顶点个数；步骤(6)的计算整个网络的分割密度的公式为： D = 2 M Σ m c m c - ( n c - 1 ) ( n c - 2 ) ( n c - 1 ) - - - ( 4 ) ]]>整个网络社区分割为{G1,G2,...,Gc}，此分割的分割密度D是对所有子图的分割密度根据边的加权平均值；步骤(7)：判断目前社区数量是大于1还是等于1，若划分后的社区数量大于1，继续步骤(4)，如果等于1，就获得分割质量最大的社区划分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学;济南市公安局，未经山东大学;济南市公安局许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510435886.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于spark平台的内存迭代的重叠社区并行发现方法有效

专利文献下载