[发明专利]基于Node2Vec的重叠社区搜索方法及设备在审
申请号: | 202010257116.9 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111460321A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 陈卓;姜鹏;杜军威 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 北京中慧创科知识产权代理事务所(特殊普通合伙) 11721 | 代理人: | 由元 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 node2vec 重叠 社区 搜索 方法 设备 | ||
本发明提供一种基于Node2Vec的重叠社区搜索方法及设备,所述方法包括获取由多个节点组成的复杂网络;利用Node2vec模型计算出各个所述节点的影响力值;根据各个所述节点的影响力值从所述节点中确定若干种子节点;利用相似度阈值分别以各个所述种子节点为核心确定所述复杂网络中可重叠的社区结构。本方发明提供的技术方案能够解决现有算法存在的不稳定和不适合大规模数据集的问题。
技术领域
本发明涉及网络信息挖掘领域,具体涉及一种基于Node2Vec的重叠社区搜索方法及设备。
背景技术
现实世界中的很多系统都可以抽象为复杂网络,如社交网络、技术网络、生物网络,这些网络都具有一种普遍的特性——社区结构。在不同类型的网络中,社区有着不同的含义,但是所有社区内部节点间的联系总是比不同社区节点间的联系密切,准确地发现社区结构是在中观层面上理解网络结构进而研究复杂系统的有效途径。
社区发现的研究历史可以追溯到1927年,Rice等人基于投票模式的相似性发现小的政治团体中的社区,早期的研究工作大部分都围绕非重叠社区发现展开,此类算法将复杂网络划分成若干个互不相连的社区结构且一个节点只能隶属于一个社区,然而,现实中网络社区之间往往是相互重叠的,硬划分的社区发现算法无法满足需求。
近年来,学者们相继提出了大量能够识别重叠社区的算法。Palla等提出了一种基于最大团的派系过滤算法CPM来分析重叠的社区结构,并以此算法为原理开发了应用软件CFinder,该算法易受k值影响,且以最大团为种子计算复杂度较高。COPRA算法对基于标签传播的非重叠社区发现算法进行改进,在标签后面附上节点对该标签的归属系数,以便衡量该节点包含多个社区的信息比重,在迭代更新节点标签的过程中允许一个节点同时拥有多个标签,以发现网络中的重叠社区,该算法每次迭代的时间复杂度接近线性但稳定度较差。
由此可见,现有的重叠社区划分方式存在不稳定和不适合大规模数据集的问题。
发明内容
有鉴于此,本发明实施例提供一种基于Node2Vec的重叠社区搜索方法,包括:
获取由多个节点组成的复杂网络;
利用Node2vec模型计算出各个所述节点的影响力值;
根据各个所述节点的影响力值从所述节点中确定若干种子节点;
利用相似度阈值分别以各个所述种子节点为核心确定所述复杂网络中可重叠的社区结构。
可选地,利用Node2vec模型计算出各个所述节点的影响力值,包括:
利用Node2vec模型计算各个所述节点的向量;
根据各个所述节点的向量计算各个所述节点间的相似度;
根据各个所述节点间的相似度及各个所述节点间的度计算出各个所述节点的影响力值。
可选地,利用Node2vec模型计算各个所述节点的向量;
根据p、q两个超参数的值确定对所述复杂网络中的节点的遍历方式;
基于所述遍历方式遍历节点,采用skip-gram模型进行训练进而获得节点的向量表示。
可选地,采用如下方式计算出各个所述节点的影响力值:
其中u和v表示两个所述节点,D(u)和D(v)分别表示节点u和v的度,sim(u,v)表示u和v的相似度,N(u)表示u的邻居节点的集合。
可选地,所述复杂网络表示为无向图G=(V,E),其中V表示图中n个节点的集合,E表示图中m条边的集合,N(u)={u:v∈V,(u,v)∈E}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010257116.9/2.html,转载请声明来源钻瓜专利网。