[发明专利]分布式Web文档聚类系统无效
申请号: | 201110083090.1 | 申请日: | 2011-03-31 |
公开(公告)号: | CN102110172A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 刘永利 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南省焦作*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。 | ||
搜索关键词: | 分布式 web 文档 系统 | ||
【主权项】:
1.一种分布式Web文档聚类系统,该系统包括多个局部数据节点服务器和一个中心数据节点服务器,每个局部数据节点服务器负责存储Web文档及完成局部聚类,中心数据节点服务器负责完成全局聚类,其特征在于:该系统采取以下步骤进行聚类:①设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni上的文档表示为
假设文档的特征词集合为{t1,t2,…,tm},其中n、i和m为自然数,且m为特征词个数,1≤i≤n。②针对每个节点Ni,使用下述方法进行局部聚类:1)得到节点Ni上各文档
的向量表示形式,根据文档中特征词的分布情况,文档
的向量形式表示为d → j i = { p ( t 1 | d j i ) , p ( t 2 | d j i ) , · · · , p ( t m | d j i ) } ]]> 其中,1≤j≤si,
表示文档
中特征词ta出现的条件概率,1≤a≤m,其计算方法为![]()
表示文档
中特征词ta的出现次数;2)将节点Ni上的文档
表示为一个集合
从中随机取一个文档表示为
将其初始化为一个簇,记为
存放在簇集合Ci中,即
同时将
从Xi中删除,簇
的向量形式表示为:c → 0 i = { p ( t 1 | c 0 i ) , p ( t 2 | c 0 i ) , · · · , p ( t m | c 0 i ) } = { p ( t 1 | x 0 i ) , p ( t 2 | x 0 i ) , · · · , p ( t m | x 0 i ) } ]]> 其中,
表示簇
中特征词ta出现的条件概率,
表示文档
中特征词ta出现的条件概率;3)从Xi中取一个文档xi,并将其初始化为一个簇
从Ci中寻找簇ci,使得
其中
表示合并
和
两个簇时产生的共有信息损失,其计算方法如下:D ( c e i , c f i ) = Σ u = e , f | c u i | | X i | Σ a = 1 m p ( t a | c u i ) log p ( t a | c u i ) p ( t a | c e i ∪ c f i ) ]]> 其中,|Xi|表示集合Xi中文档的个数,
表示合并
和
两个簇所得到的新簇中特征词ta出现的条件概率,p ( t a | c e i ∪ c f i ) = | c e i | | c e i ∪ c f i | p ( t a | c e i ) + | c f i | | c e i ∪ c f i | p ( t a | c f i ) ]]> 得到ci之后,若
将
的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空;4)若Xi中还有文档未处理,则重复步骤3。5)对上述聚类结果进行调整,依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整,将上述针对调整过程循环sum次后,聚类过程完成,其中sum为一个自然数;③综合各节点的聚类结果,使用DCIB方法进行全局聚类1)节点Ni上的文档经局部聚类后产生的簇集合表示为
ki表示节点Ni上的聚类结果所包含的簇数目,由局部聚类的过程可知,簇
的向量表示形式为
其中
表示簇
中特征词ta出现的条件概率,v为一个自然数,1≤v≤ki;2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即C = C 1 ∪ C 2 ∪ · · · ∪ C n = { c 1 1 , c 2 1 , · · · , c k 1 1 , c 1 2 , c 2 2 , · · · , c k 2 2 , · · · c 1 n , c 2 n , · · · , c k n n } = { c 1 , c 2 , · · · , c r } ]]> 其中,
从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}},其中集合C′的元素为簇,这些簇由局部聚类阶段产生的簇组成,即C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除;簇c0的向量形式表示为:c → 0 = { p ( t 1 | c 0 ) , p ( t 2 | c 0 ) , · · · , p ( t m | c 0 ) } ]]> 其中,p(ta|c0)表示簇c0中特征词ta出现的条件概率;3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得
其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:D ( c e , c f ) = Σ u = e , f | c u | r Σ a = 1 m p ( t a | c u ) log p ( t a | c u ) p ( t a | c e ∪ c f ) ]]> 其中,|cu|表示簇cu所包含簇的个数,p(ta|ce∪cf)表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,p ( t a | c e ∪ c f ) = | c e | | c e ∪ c f | p ( t a | c e ) + | c f | | c e ∪ c f | p ( t a | c f ) ]]> 得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C′中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空;④若C中还有簇未处理,则重复步骤3;⑤对上述聚类结果进行调整,依次从C′的每个簇中取每个簇c′构成一个新的簇{c′},根据共有信息损失最小原则,将{c′}合并到C′包含的一个簇中,从而完成对聚类结果的一次调整;将上述针对调整过程循环sum次后,聚类过程完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110083090.1/,转载请声明来源钻瓜专利网。