[发明专利]基于频繁项集挖掘的核心节点发现方法无效
申请号: | 200810244678.9 | 申请日: | 2008-12-11 |
公开(公告)号: | CN101446978A | 公开(公告)日: | 2009-06-03 |
发明(设计)人: | 王崇骏;刘红星;宋文军;谢俊元 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京天翼专利代理有限责任公司 | 代理人: | 汤志武;王鹏翔 |
地址: | 210093*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 频繁 挖掘 核心 节点 发现 方法 | ||
技术领域
本发明涉及到子图发现和基于图的频繁项集挖掘方法。
背景技术
社会网络分析是目前数据挖掘中与社会生活联系最紧密的热点之一,作为社会网络分析的新的分支,犯罪网络(Crime Network)的研究受到各国政府和相关机构的特别关注。根据组织犯罪具有的层次性的结构特征,在犯罪组织之内或犯罪成员之间存在领导和被领导的关系,有核心成员和普通人员之分。犯罪网络的核心就是那些代表犯罪团伙的领导或关键人员的网络节点。
社会网络不仅有静态的属性特征,还有其动态性的特点,对于犯罪网络而言,其也是处于不断的变化过程中,为了弥补静态性特征的局限性,利用社会网络的动态性是本发明的研究出发点。目前在图的核心节点发现上主要有三种不同的方法,一是纯粹基于社会网络分析中的网络的静态参数来进行衡量节点的关键程度;二是借鉴图分割方法中分割标准来进行衡量;三是使用搜索引擎中节点排序的思想来进行核心节点的发现。
将社会网络建模成图,节点表示人,边表示两个人之间有某种特定的关系,如朋友关系等。当抽象成数学中图的概念,就可以描述图的一些静态参数来发现图的基本性质,并可以利用这些基本参数来作为核心指标的某个属性,比如用节点的度数来描述节点的关键程度,一个节点的度数越大,越能说明这个节点在这个图中的关键作用。
图分割的目的使把大图划分成小图,要求是小图内部联系比较紧密而小图之间联系比较松散。在基于边删除的图分割算法中,分割的关键是找出这个关键边,然后把关键边删除后即可把图分割。此时这个关键边对应的节点就可看成核心节点。
本发明重新定义了核心概念,即关系网络变化过程中频繁出现的节点。通过子图发现提取各个时间点的由子图节点集合组成的项集集合,然后使用基于图的频繁项集挖掘算法进行频繁项集算法进行核心节点的发现。
发明内容
发明目的:本发明所要解决的技术问题是提供一种基于频繁项集挖掘的核心节点发现算法。
本发明技术方案是:为解决上述问题,本发明的基于频繁项集挖掘的核心节点发现方法包括如下步骤:
1)项集生成阶段:
c)取得多个时间点的网络快照;时间点的选择需要用户根据网络变化情况和网络的规模来综合指定,保证各个时间点的网络既能反应网络的动态性又不至于打破原有的团伙结构。
d)针对每个时间点的网络快照都进行如下操作;
iv.得到网络快照对应节点之间的关联图;
v.提取关联图中所有的伽马准团;
vi.把每一个关联准团所对应的节点组合作为一个项集加入到项集集合
2)核心节点发现阶段:
e)把生成的项集集合作为最大频繁项集挖掘的初始集合;
f)把项集集合表示成位图向量的形式;
c)生成最大频繁项集;
d)结束;
其中:步骤1-b)中伽马准团的提取的具体过程如下:
1)通过设定最大迭代次数maxIterator来决定要运行的次数。迭代部分包换两个部分,一个是构造阶段,一个是局部搜索阶段。
2)判断是不是达到迭代次数,如果达到就退出,否则这继续从第3步开始运行。
3)最大准团的构造阶段,初始化一个元素的子图。
4)判断当前的子图是不是满足给定的紧密度要求,如果不满足说明构造阶段结束,进行第8)步开始的局部搜索阶段。
5)求得当前子图的邻居节点,邻居节点集合的每个节点要求与当前子图的节点之间也是紧密相连的。
6)从当前的邻居节点中随机选择一个加入到子图集合中来扩大初始的子图集合7)求出新加入节点后的子图的紧密度。
8)局部搜索阶段,由构造阶段的生成初始最大准团作为出发点,寻找新的最大准团。局部搜索通过交换的方式来在生成的子图基础上寻找更大的子图。
9)寻找当前子图中有没有可以交换出去的元素。如果有的话就进行第10)步,否则表示局部搜索阶段结束。
10)是从当前子图中删除一个元素来形成新的伽马准团。
11)按照与第5步同样的方法求得当前伽马准团的所有邻居。
12)从11)步生成的邻居中选择两个来替换10步中删除的元素。
13)把新加入的节点加入到候选伽马准团中
14)在每次迭代之后和上次迭代的结果进行对比,如果发现了更长的准团的话,就更新这个准团。
步骤2-b)的具体流程如下:
1)生成初始候选k-频繁项集,初始k为3即得到候选3-频繁项集。
2)开始进入以下第3-11)步的迭代生成最大频繁项集的流程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810244678.9/2.html,转载请声明来源钻瓜专利网。