[发明专利]分布式Web文档聚类系统无效
申请号: | 201110083090.1 | 申请日: | 2011-03-31 |
公开(公告)号: | CN102110172A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 刘永利 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南省焦作*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 web 文档 系统 | ||
技术领域
本申请属于信息检索、数据挖掘、人工智能领域。
背景技术
为了揭示隐藏在Web数据之后具有潜在价值的信息或结构,近年来Web挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。
目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。这些聚类算法的研究主要是针对集中式数据源进行挖掘,即数据对象集中分布在同一个数据节点上。然而,在许多Web应用中,因为数据量庞大、访问效率等原因,不得不将数据分布在多个节点上,如众多站点为提高访问效率广泛采用了多镜像技术,使得数据对象分布在不同的镜像站点上。在这种应用环境中,必须将传统的聚类方法和分布式的策略相结合,即采用分布式聚类方法。分布式聚类方法通常包括两个步骤:①对各个节点的数据进行本地独立聚类(局部聚类),获得数据的局部模式;②将各节点的聚类结果进行合并(全局聚类),获得数据的全局模式。
发明内容
本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。
附图说明
图1是DCS系统的聚类过程图。
具体实施方式
DCS系统的聚类过程如错误!未找到引用源。所示。首先使用DCIB方法对各个节点上的Web文档进行本地聚类,然后将各个节点的聚类结果集合起来作为数据对象,再次使用DCIB方法进行聚类。
具体实现步骤如下:
错误!未找到引用源。说明了DCS系统聚类的基本过程。该过程分为局部聚类和全局聚类两个阶段。在局部聚类阶段,各数据节点将各自节点上的文档数据使用DCIB方法进行独立聚类,聚类结果代表了该节点上文档的总体特征;在全局聚类阶段,将局部聚类阶段产生的聚类结果作为数据输入,再次使用DCIB方法进行聚类。
DCIB方法是一种基于信息瓶颈理论的文档聚类方法。该方法采用信息瓶颈理论度量文档之间的“相似”关系,并使用增量聚类算法对文档数据进行聚类,最后对聚类结果进行调整。这样的聚类过程一方面避免了因随机选用相似度计算方法所造成的误差;另一方面是所采用的增量方式保证了较高的聚类效率,能够满足对时间性能有较高要求的Web应用;同时,针对聚类结果的调整过程减轻了文档次序对增量过程造成的影响,提高了聚类的准确率。DCIB首先随机选取一个文档初始化为一个簇,然后依次处理每个文档直至文档处理完毕。处理过程中比较新文档与现存各个簇合并所产生的最小共有信息损失,如果最小共有信息损失满足规定阈值,则将该文档合并到“距离”最近簇,否则新建一个簇存放该文档。
DACWD方法的详细步骤为:
1.假设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni(1≤i ≤n)上的文档表示为假设文档的特征词集合为{t1,t2,…,tm},其中m为特征词个数。
2.针对每个节点Ni(1≤i ≤n),使用下述DCIB方法进行局部聚类
1)得到节点Ni(1≤i ≤n)上各文档的向量表示形式。根据文档中特征词的分布情况,文档的向量形式表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110083090.1/2.html,转载请声明来源钻瓜专利网。