[发明专利]分布式Web文档聚类系统无效
申请号: | 201110083090.1 | 申请日: | 2011-03-31 |
公开(公告)号: | CN102110172A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 刘永利 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南省焦作*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 web 文档 系统 | ||
1.一种分布式Web文档聚类系统,该系统包括多个局部数据节点服务器和一个中心数据节点服务器,每个局部数据节点服务器负责存储Web文档及完成局部聚类,中心数据节点服务器负责完成全局聚类,其特征在于:该系统采取以下步骤进行聚类:
①设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni上的文档表示为假设文档的特征词集合为{t1,t2,…,tm},其中n、i和m为自然数,且m为特征词个数,1≤i≤n。
②针对每个节点Ni,使用下述方法进行局部聚类:
1)得到节点Ni上各文档的向量表示形式,根据文档中特征词的分布情况,文档的向量形式表示为
其中,1≤j≤si,表示文档中特征词ta出现的条件概率,1≤a≤m,其计算方法为表示文档中特征词ta的出现次数;
2)将节点Ni上的文档表示为一个集合从中随机取一个文档表示为将其初始化为一个簇,记为存放在簇集合Ci中,即同时将从Xi中删除,簇的向量形式表示为:
其中,表示簇中特征词ta出现的条件概率,表示文档中特征词ta出现的条件概率;
3)从Xi中取一个文档xi,并将其初始化为一个簇从Ci中寻找簇ci,使得其中表示合并和两个簇时产生的共有信息损失,其计算方法如下:
其中,|Xi|表示集合Xi中文档的个数,表示合并和两个簇所得到的新簇中特征词ta出现的条件概率,
得到ci之后,若将的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空;
4)若Xi中还有文档未处理,则重复步骤3。
5)对上述聚类结果进行调整,依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整,将上述针对调整过程循环sum次后,聚类过程完成,其中sum为一个自然数;
③综合各节点的聚类结果,使用DCIB方法进行全局聚类
1)节点Ni上的文档经局部聚类后产生的簇集合表示为ki表示节点Ni上的聚类结果所包含的簇数目,由局部聚类的过程可知,簇的向量表示形式为其中表示簇中特征词ta出现的条件概率,v为一个自然数,1≤v≤ki;
2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即
其中,从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}},其中集合C′的元素为簇,这些簇由局部聚类阶段产生的簇组成,即C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除;簇c0的向量形式表示为:
其中,p(ta|c0)表示簇c0中特征词ta出现的条件概率;
3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:
其中,|cu|表示簇cu所包含簇的个数,p(ta|ce∪cf)表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,
得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C′中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空;
④若C中还有簇未处理,则重复步骤3;
⑤对上述聚类结果进行调整,依次从C′的每个簇中取每个簇c′构成一个新的簇{c′},根据共有信息损失最小原则,将{c′}合并到C′包含的一个簇中,从而完成对聚类结果的一次调整;将上述针对调整过程循环sum次后,聚类过程完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110083090.1/1.html,转载请声明来源钻瓜专利网。