[发明专利]一种针对复杂网络的混合型聚类方法有效
申请号: | 201210185427.4 | 申请日: | 2012-06-06 |
公开(公告)号: | CN102810113A | 公开(公告)日: | 2012-12-05 |
发明(设计)人: | 童超;韩军威;牛建伟;戴彬 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 复杂 网络 混合 型聚类 方法 | ||
技术领域
本发明属于社区网络的数据挖掘领域,涉及一种针对复杂网络的混合型聚类方法。
背景技术
自20世纪90年代开始,以Internet为代表的信息技术的迅猛发展使人类社会进入了网络时代。从Internet到WWW,从生态环境中的食物链网到生物体内的新陈代谢网络,从科研合作网络到各种政治、经济、社会网络,从大型电力网络到全球交通网络,人们生活在一个充满着各种各样的复杂网络的世界中。随着真实世界网络中小世界效应及无标度特性的发现,带来了对复杂网络的研究热潮。复杂网络具有较强的跨学科特征,对复杂网络的研究涉及到图论、统计物理学、计算机网络、经济学、社会学等领域。
随着对复杂网络性质的物理意义和数学特性的深入研究,人们发现许多真实网络都具有一个共同的性质,即簇结构,也就是说整个网络是由若干个簇构成的。网络簇结构(network cluster structure)是复杂网络最普遍和最重要的拓扑结构属性之一,具有簇内节点相互连接密集、簇间节点相互连接稀疏的特点。
发现网络中的社团结构对分析复杂网络的拓扑结构、理解复杂网络的功能、发现复杂网络中的隐藏规律以及预测复杂网络的行为不仅具有十分重要的理论意义,而且具有广泛的应用前景。目前已被应用于恐怖组织识别、蛋白质交互网络分析、基因调控网络分析及Web社区挖掘和搜索引擎等众多领域。
由于复杂网络中社团的重要性,来自多个学科的学者对聚类算法进行了深入的研究,取得了丰富的研究成果。复杂网络聚类方法按照分析策略划分主要分为基于优化的方法和启发式方法两类。
基于优化的方法主要有谱方法、KL(Kernighan-Lin)算法、FN(Fast-Newman)算法和GA(Guimera-Amaral)算法。
谱方法早期用于解决图分割(graph partition)问题,近年来被应用到复杂网络聚类领域。谱方法采用二次型优化最小化预定义的“截函数”。具有最小“截”(即网间连接密度)的划分被认为是最优的网络划分。谱方法具有严密的数学理论,被广泛应用于图分割和空间点聚类等领域。但由于其对先验知识的依赖度过高及其采用的递归二分策略问题,在实际应用中效果一般。
KL算法同样基于图分割思想,优化目标是极小化簇间连接与簇内连接数目之差,通过不断调整节点所属簇结构,选择并接受可以使目标函数极小化的候选解。KL算法对初始解非常敏感,在应用中同样对先验知识的依赖程度较高,在寻找最优解的过程中,往往只能得到局部最优的结果。
2004年,M.E.J.Newman提出了基于局部搜索的快速复杂网络聚类算法FN算法。FN算法属于基于优化的算法,其优化目标是极大化M.Girvan和M.E.J.Newman于同年提出的网络模块性评价函数(Q函数)。Q函数定义为簇内的实际连接数目与随机连接下簇内的期望连接数目之差,用来展现网络簇结构的优劣。Q值越大则网络簇结构越好。
2005年,R.Guimera和L.A.N.Amaral采用与FN算法相同的优化目标函数,提出了基于模拟退火算法(SA)的复杂网络聚类算法GA算法。该算法通过计算候选解对应的Q函数值来评价其优劣,GA算法具有找到全局最优解的能力,因此具有很好的聚类性能。
代表性的启发式方法有GN(Girvan-Newman)算法和MFC(Maximum Flow Community)算法。
2002年,M.Girvan和M.E.J.Newman提出了GN算法。GN算法采用反复识别和删除簇间连接的策略聚类复杂网络。GN算法初始所有的节点为一个社区,每一步删除边介数最大的边(时间复杂度为O(mn)),重复下去一直到所有的边被删除,此时每个节点为一个社区。这样就通过切割边的方法生成了一个树状的图,通过Q函数的检测,可以找到一个最好的分割。GN算法拥有较高的精度,经常作为聚类算法的评价参考指标。但因其时间复杂性过高(O(m2n))而无法在大规模复杂网络中使用。为了解决GN算法效率低下的问题,研究者提出了多种改进算法。
2003年,Tyler等人将统计方法引入基本的GN算法,提出一种近似GN算法。他们的策略是:采用蒙特卡洛方法估算出部分连接的近似边介数,而不是计算出全部连接的精确边介数。显然,这种方法计算速度的提高是以牺牲聚类精度为代价的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210185427.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用改进惯性元件的微机电磁场传感器
- 下一篇:曲线桥反坡顶升施工工艺