[发明专利]基于节点属性标签传播的网页聚类方法有效
申请号: | 201210176912.5 | 申请日: | 2012-05-31 |
公开(公告)号: | CN102768670A | 公开(公告)日: | 2012-11-07 |
发明(设计)人: | 张乐君;夏磊;张健沛;杨静;国林 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 节点 属性 标签 传播 网页 方法 | ||
技术领域
本发明涉及的是一种网页聚类方法。
背景技术
随着对数据挖掘理论的不断深入探索,复杂网络分析引起了当前许多领域研究者的关注。复杂网络聚类更是成为一些国内外学者研究兴趣的聚焦点。许多学者致力于研究复杂网络中聚类技术,他们通过使用不同的方法,发现网络簇结构。
网络中的节点可能具有不同层次的组织结构,如大的簇结构内可能包含小的簇结构。层次聚类方法是实现聚类的传统方法,包括自顶向下的分裂层次聚类与自底向上的凝聚层次聚类两种方法,代表算法分别为PNAS.2002,99(12)中文章Community structure in social and biological networks刊登的GN算法、Physical Review E.2004,69(6),066133中文章Fast algorithm for detecting community structure in networks刊登的Newman贪婪算法。谱方法本质上是一种基于矩阵特征向量提取新数据特征的方法,将聚类问题转化为图划分问题。在inth Intl.Conf.on Hybrid Intelligent Systems.2009中文章An improved spectral clustering algorithm for community discovery提出了一种改进的谱聚类算法检测社会网络中的簇结构,它充分利用网络特征,通过核心元素来挖掘簇结构,在时间和精度方面具有优越性。目前源自于生物学的算法广泛应用于各类问题,许多学者也致力于将该思想应用于社会网络聚类研究领域中。在Proceedings of the 10th annual conference on genetic and evolutionar computation,2008:1137-1138中文章Community detection in social networks with Genetic Algorithms提出了用于发现网络簇结构的遗传算法,使用一个适应度函数来识别网络中内部联系稠密、之间联系稀疏的节点组。随机游走图是一个由随机过程产生的图模型,其中节点、边的数量及节点间的连接等属性都是以某种随机方式产生的,该图由节点出现或者缺失的联合分布来定义的。Statistical computing.2008,18(2):173-183中文章A mixture model for random graphs引入了随机游走方法,并采用块结构模型,在社会自然科学网络中探索簇结构。另外,在社会网络中,由于某个元素可能不仅属于一个,而可以属于多个簇,这种现象叫做簇结构重叠。目前,绝大多数算法不考虑重叠的网络簇结构。但在多数应用中,重叠的网络簇结构更具有实际意义。Physics A:Statistical Mechanics and its Applications.2007,374(1):483-490中文章Identification of overlapping community structure in complex networks using fuzzy c-means clustering提出了一种fuzzy c-means聚类方法,来检测复杂网络中的重叠簇结构。
但上述算法的目的都是对网络的整个簇结构进行检测,几乎都需要以了解网络的整体结构为基础,或者需要预先知道网络簇结构的数量、规模等信息,对复杂网络进行聚类。而随着互联网络技术的不断发展,数据规模不断增大,上述算法一般具有较高的时间复杂度,网络全部簇结构的挖掘将会耗费较多时间,对于大规模的网络并不能很好的适用。
发明内容
本发明的目的在于提供一种适用于大规模的数据网络,易于理解实现、时间复杂度相对较低的基于节点属性标签传播的网页聚类方法。
本发明的目的是这样实现的:
(1)依据网页的链接关系构造拓扑结构图模型;
(2)为图模型中每个节点构建属性特征向量;
(3)初始化网络中的节点标签;
(4)依据拓扑结构及节点属性迭代更新节点的标签;
(5)定义停止更新节点标签的条件。
本发明还可以包括:
所述的依据网页的链接关系构造拓扑结构图模型的方法是:1)将互联网中的网页映射为图模型中的节点;2)将网页中的链接关系映射为图模型中节点之间相互连接的边。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210176912.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搪瓷钢氧化锡薄膜发热管
- 下一篇:擦除译码方法、装置和接收机