[发明专利]一种面向互联网微内容的分布式聚类方法有效

专利信息
申请号: 200710156189.3 申请日: 2007-10-23
公开(公告)号: CN101178720A 公开(公告)日: 2008-05-14
发明(设计)人: 陈珂;陈刚;汪源;胡天磊;寿黎但 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30;H04L29/06
代理公司: 杭州求是专利事务所有限公司 代理人: 林怀禹
地址: 310027浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 互联网 内容 分布式 方法
【说明书】:

技术领域

发明涉及对海量互联网微内容进行聚类处理相关的技术,特别是涉及一种面向互联网微内容的分布式聚类方法。

背景技术

近年来,随着计算机宽带用户的持续增加,各种互联网应用不断涌现,互联网快速进入了WEB2.0时代,博客、播客、威客等WEB2.0应用迅速发展,以博客应用为例,据权威调研机构预测,今年全球博客数量将超过1亿人,同时还将不断增长,随着博客用户数的不断增长,用户的评论、留言等微内容也在爆炸式地增加,其中有很多微内容都是广告、大量重复推荐等垃圾信息,它们的存在严重影响了用户的阅读质量,如何高效、快速地对这些海量微内容进行聚类,从而识别出其中的垃圾微内容已成为众多博客服务提供商和广大博客用户共同关心的问题之一;

目前已有许多面向互联网微内容的聚类方法,如比较成熟的贝叶斯、KNN、SVM等,但贝叶斯方法需要有特定的语料库支持,维护代价比较高,而且聚类的效果跟语料库规模、质量有很大的关系,不是理想的聚类方法;另外两种聚类方法KNN和SVM都需要首先计算所有微内容之间的相似度,当微内容的数量级为海量级时,比如千万级o(108),那么计算所有微内容之间的相似度所需要的时间数量级为o(1016),这显然是用户所不能忍受的,因此也不是理想的聚类方法;

发明内容

本发明的目的在于提供一种面向互联网微内容的分布式聚类方法。

本发明解决其技术问题采用的技术方案是,该方法的步骤如下:

1)主控机器首先对微内容文件进行切分操作,得到适合元聚类操作的多个小微内容文件,对输入的微内容文件,按照每个文件固定的记录条数写到多个小文件中,在小文件中一行一条微内容;

2)多台聚类机器对微内容进行分布式聚类操作:

第一步,对于由主控机器切分操作生成的适合元聚类操作的各个小微内容文件,用脚本拷贝到相应的聚类机器上;

第二步,多台聚类机器并行进行聚类操作,每台聚类机器都执行以下两个步骤:

a)对分配到的各个小微内容文件循环进行元聚类操作,生成相应的各个元聚类结果文件;

b)对上面生成的元聚类结果文件进行合并操作,生成单机聚类合并文件,其中合并操作的过程如下:

(1)读取各个元聚类结果文件,从各个聚类项中抽取聚类项代表点,把代表点对应的微内容写到一个临时微内容文件中;

(2)对生成的临时微内容文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到最后的单机聚类合并文件;

第三步,每台聚类机器生成完单机聚类合并文件后,通知主控机器,并把聚类合并文件发送给主控机器,主控机器在接收到各台聚类机器发送来的单机聚类合并文件后,再次对这些文件进行合并操作,生成系统总的聚类结果文件,其中合并操作的过程如下:

a)读取各个单机聚类合并文件,从各个聚类项中抽取聚类项代表点,把代表点对应的微内容写到一个临时微内容文件中;

b)对生成的临时微内容文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到系统总的聚类结果文件;

3)在上述2)中的对微内容文件进行元聚类操作的步骤如下:

第一步,从微内容数据文件中把各行微内容读出,然后放入队列中,队列中的每个元素为一条微内容,将队列中个各条微内容读出,对它们进行中文分词,去掉停用词,生成相应的关键词序列;

第二步,对各个关键词序列,创建按连续两个关键词组合在一起的关键词为键,包含该两个词组合的微内容编号为值的倒排索引;

第三步,等倒排索引建完,扫描倒排索引,创建以微内容编号作为矩阵行列,微内容两两之间相同单元的数目为值的相关矩阵,在扫描每行倒排项时,将两两微内容编号对应的矩阵元素的值加1;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710156189.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top