[发明专利]分布式Web文档聚类系统无效

专利信息
申请号: 201110083090.1 申请日: 2011-03-31
公开(公告)号: CN102110172A 公开(公告)日: 2011-06-29
发明(设计)人: 刘永利 申请(专利权)人: 河南理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 454000 河南省焦作*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。
搜索关键词: 分布式 web 文档 系统
【主权项】:
1.一种分布式Web文档聚类系统,该系统包括多个局部数据节点服务器和一个中心数据节点服务器,每个局部数据节点服务器负责存储Web文档及完成局部聚类,中心数据节点服务器负责完成全局聚类,其特征在于:该系统采取以下步骤进行聚类:①设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni上的文档表示为假设文档的特征词集合为{t1,t2,…,tm},其中n、i和m为自然数,且m为特征词个数,1≤i≤n。②针对每个节点Ni,使用下述方法进行局部聚类:1)得到节点Ni上各文档的向量表示形式,根据文档中特征词的分布情况,文档的向量形式表示为dji={p(t1|dji),p(t2|dji),···,p(tm|dji)}]]>其中,1≤j≤si表示文档中特征词ta出现的条件概率,1≤a≤m,其计算方法为表示文档中特征词ta的出现次数;2)将节点Ni上的文档表示为一个集合从中随机取一个文档表示为将其初始化为一个簇,记为存放在簇集合Ci中,即同时将从Xi中删除,簇的向量形式表示为:c0i={p(t1|c0i),p(t2|c0i),···,p(tm|c0i)}={p(t1|x0i),p(t2|x0i),···,p(tm|x0i)}]]>其中,表示簇中特征词ta出现的条件概率,表示文档中特征词ta出现的条件概率;3)从Xi中取一个文档xi,并将其初始化为一个簇从Ci中寻找簇ci,使得其中表示合并两个簇时产生的共有信息损失,其计算方法如下:D(cei,cfi)=Σu=e,f|cui||Xi|Σa=1mp(ta|cui)logp(ta|cui)p(ta|ceicfi)]]>其中,|Xi|表示集合Xi中文档的个数,表示合并两个簇所得到的新簇中特征词ta出现的条件概率,p(ta|ceicfi)=|cei||ceicfi|p(ta|cei)+|cfi||ceicfi|p(ta|cfi)]]>得到ci之后,若的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空;4)若Xi中还有文档未处理,则重复步骤3。5)对上述聚类结果进行调整,依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整,将上述针对调整过程循环sum次后,聚类过程完成,其中sum为一个自然数;③综合各节点的聚类结果,使用DCIB方法进行全局聚类1)节点Ni上的文档经局部聚类后产生的簇集合表示为ki表示节点Ni上的聚类结果所包含的簇数目,由局部聚类的过程可知,簇的向量表示形式为其中表示簇中特征词ta出现的条件概率,v为一个自然数,1≤v≤ki;2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即C=C1C2···Cn={c11,c21,···,ck11,c12,c22,···,ck22,···c1n,c2n,···,cknn}={c1,c2,···,cr}]]>其中,从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}},其中集合C′的元素为簇,这些簇由局部聚类阶段产生的簇组成,即C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除;簇c0的向量形式表示为:c0={p(t1|c0),p(t2|c0),···,p(tm|c0)}]]>其中,p(ta|c0)表示簇c0中特征词ta出现的条件概率;3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:D(ce,cf)=Σu=e,f|cu|rΣa=1mp(ta|cu)logp(ta|cu)p(ta|cecf)]]>其中,|cu|表示簇cu所包含簇的个数,p(ta|ce∪cf)表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,p(ta|cecf)=|ce||cecf|p(ta|ce)+|cf||cecf|p(ta|cf)]]>得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C′中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空;④若C中还有簇未处理,则重复步骤3;⑤对上述聚类结果进行调整,依次从C′的每个簇中取每个簇c′构成一个新的簇{c′},根据共有信息损失最小原则,将{c′}合并到C′包含的一个簇中,从而完成对聚类结果的一次调整;将上述针对调整过程循环sum次后,聚类过程完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110083090.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top