[发明专利]基于节点属性标签传播的网页聚类方法有效

专利信息
申请号: 201210176912.5 申请日: 2012-05-31
公开(公告)号: CN102768670A 公开(公告)日: 2012-11-07
发明(设计)人: 张乐君;夏磊;张健沛;杨静;国林 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 节点 属性 标签 传播 网页 方法
【说明书】:

技术领域

发明涉及的是一种网页聚类方法。

背景技术

随着对数据挖掘理论的不断深入探索,复杂网络分析引起了当前许多领域研究者的关注。复杂网络聚类更是成为一些国内外学者研究兴趣的聚焦点。许多学者致力于研究复杂网络中聚类技术,他们通过使用不同的方法,发现网络簇结构。

网络中的节点可能具有不同层次的组织结构,如大的簇结构内可能包含小的簇结构。层次聚类方法是实现聚类的传统方法,包括自顶向下的分裂层次聚类与自底向上的凝聚层次聚类两种方法,代表算法分别为PNAS.2002,99(12)中文章Community structure in social and biological networks刊登的GN算法、Physical Review E.2004,69(6),066133中文章Fast algorithm for detecting community structure in networks刊登的Newman贪婪算法。谱方法本质上是一种基于矩阵特征向量提取新数据特征的方法,将聚类问题转化为图划分问题。在inth Intl.Conf.on Hybrid Intelligent Systems.2009中文章An improved spectral clustering algorithm for community discovery提出了一种改进的谱聚类算法检测社会网络中的簇结构,它充分利用网络特征,通过核心元素来挖掘簇结构,在时间和精度方面具有优越性。目前源自于生物学的算法广泛应用于各类问题,许多学者也致力于将该思想应用于社会网络聚类研究领域中。在Proceedings of the 10th annual conference on genetic and evolutionar computation,2008:1137-1138中文章Community detection in social networks with Genetic Algorithms提出了用于发现网络簇结构的遗传算法,使用一个适应度函数来识别网络中内部联系稠密、之间联系稀疏的节点组。随机游走图是一个由随机过程产生的图模型,其中节点、边的数量及节点间的连接等属性都是以某种随机方式产生的,该图由节点出现或者缺失的联合分布来定义的。Statistical computing.2008,18(2):173-183中文章A mixture model for random graphs引入了随机游走方法,并采用块结构模型,在社会自然科学网络中探索簇结构。另外,在社会网络中,由于某个元素可能不仅属于一个,而可以属于多个簇,这种现象叫做簇结构重叠。目前,绝大多数算法不考虑重叠的网络簇结构。但在多数应用中,重叠的网络簇结构更具有实际意义。Physics A:Statistical Mechanics and its Applications.2007,374(1):483-490中文章Identification of overlapping community structure in complex networks using fuzzy c-means clustering提出了一种fuzzy c-means聚类方法,来检测复杂网络中的重叠簇结构。

但上述算法的目的都是对网络的整个簇结构进行检测,几乎都需要以了解网络的整体结构为基础,或者需要预先知道网络簇结构的数量、规模等信息,对复杂网络进行聚类。而随着互联网络技术的不断发展,数据规模不断增大,上述算法一般具有较高的时间复杂度,网络全部簇结构的挖掘将会耗费较多时间,对于大规模的网络并不能很好的适用。

发明内容

本发明的目的在于提供一种适用于大规模的数据网络,易于理解实现、时间复杂度相对较低的基于节点属性标签传播的网页聚类方法。

本发明的目的是这样实现的:

(1)依据网页的链接关系构造拓扑结构图模型;

(2)为图模型中每个节点构建属性特征向量;

(3)初始化网络中的节点标签;

(4)依据拓扑结构及节点属性迭代更新节点的标签;

(5)定义停止更新节点标签的条件。

本发明还可以包括:

所述的依据网页的链接关系构造拓扑结构图模型的方法是:1)将互联网中的网页映射为图模型中的节点;2)将网页中的链接关系映射为图模型中节点之间相互连接的边。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210176912.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top