[发明专利]局部社区的挖掘与合并方法及其装置、芯片、存储介质有效
申请号: | 202010242946.4 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111506620B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 胡宸章;朱明杰;魏岩;唐溶;张书豪 | 申请(专利权)人: | 上海氪信信息技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/25 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 孙金金;周涛 |
地址: | 200031 上海市长宁区安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 局部 社区 挖掘 合并 方法 及其 装置 芯片 存储 介质 | ||
本发明公开了一种局部社区的挖掘与合并方法及其装置、芯片、存储介质,方法包括:S1、单种子节点局部社区挖掘;从一个种子节点出发,依次执行的马尔可夫随机游走分布评分算法、节点排序算法、最小连通性分割算法,得到一个局部社区;S2、种子节点合并与多种节点局部社区挖掘;对于高相似度的局部社区,将种子节点合并,并从合并后的多个种子节点出发,通过多种子节点局部社区挖掘,得到新的局部社区;S3、重合局部社区消解;对于残余的相似度低但仍有重合节点的局部社区,将重合的节点归至其中一个社区。本发明能够满足大规模关系数据分析的特定需求,利用种子节点所带来的信息,挖掘出相对精确的局部社区,得到互不重叠的若干个局部社区。
技术领域
本发明涉及社区挖掘技术领域,具体涉及一种在关系网络中,通过计算机程序,寻找、归纳局部社区的方法及实现这种方法的装置、芯片、存储介质。
背景技术
对于大规模的关系数据(例如:银行转账关系、电信通话关系、社交网站好友关系等),组建关系网络并进行局部社区挖掘是一种实用的数据处理方式。(例如:在已知一个银行账户A涉及非法资金转移的情况下,若账户B、C与账户A有较多直接或间接资金往来,则账户B、C涉及非法资金转移的可能性会显著地高于一般账户,且A、B、C有较大可能属于同一个非法资金转移团伙。以账户A为种子节点,进行局部社区挖掘,可以用于寻找B、C这类账户,并将A、B、C识别为一个同局部社区。)
现有的社区挖掘技术,主要基于网络分割或标签传播这两类方法。网络分割类的方法,即是通过去除关系网络中较不紧密的部分关系,使网络分裂成若干个互不相连的网络。这类方法可以较好地利用关系网络的全局结构信息,但无法有效利用种子节点的信息,只能将所有节点一视同仁地归入各个社区,因此往往难以得到较小、较精确的局部社区。而标签传播类的方法,则是给种子节点贴上特定的标签,然后根据节点间的关系,预测与之连接的节点的标签。这类方法可以较为精确地判断一个节点是否应该被纳入局部社区,但其得到的局部社区只与标签有关,无法解决多个种子节点是否应属于同一个局部社区的问题。
发明内容
针对现有技术中存在的问题,本发明提供一种局部社区的挖掘与合并方法,本发明能够克服现有局部社区挖掘技术的缺点,满足大规模关系数据分析的特定需求。此外,本发明还要提供一种局部社区的挖掘与合并装置、芯片及存储介质。
为实现上述目的,本发明采用以下技术方案:
本发明的第一方面,提供一种局部社区的挖掘与合并方法,包括以下步骤:
S1、单种子节点局部社区挖掘;从一个种子节点出发,通过改进的 Andersen-Chung-Lang算法,得到一个由多个节点组成的局部社区,改进的 Andersen-Chung-Lang算法包括依次执行的马尔可夫随机游走分布评分算法、节点排序算法、最小连通性分割算法;
S2、种子节点合并与多种子节点局部社区挖掘;对于由不同的种子节点得到的具有高相似度的局部社区,将种子节点合并,并从合并后的多个种子节点出发,通过多种子节点局部社区挖掘,得到新的局部社区;
S3、重合局部社区消解;在经过种子节点合并后,对于残余的、相似度低但仍有重合节点的社区,将重合的节点归至其中一个局部社区,以消除重合。
其中,所述S1之前的步骤为数据的输入,即从数据源读取要处理的关系网络数据,以节点表和边表的形式载入,对数据的组织形式进行预处理,将节点和边的信息转化为密集存储的邻接表。
其中,所述S3之后的步骤为数据的输出,即将计算后得到的各个局部社区,以节点表的形式依次输出。
其中,所述马尔可夫随机游走分布评分算法的步骤如下:
(a)对于每个节点,设定remain值和rank值,种子节点的remain初始值为 1,rank初始值为0,其它节点的remain初始值为0,rank初始值为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海氪信信息技术有限公司,未经上海氪信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010242946.4/2.html,转载请声明来源钻瓜专利网。