[发明专利]进行网络资源聚类的方法及装置在审
申请号: | 201310642355.6 | 申请日: | 2013-12-03 |
公开(公告)号: | CN103678545A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 白明 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 姜精斌 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 进行 网络资源 方法 装置 | ||
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种进行网络资源聚类的方法及装置。
背景技术
K-Means算法可以用于对搜索到的网络资源进行聚类处理,在进行聚类处理时,根据初始化确定出的网络资源的每个中心点,通过迭代的方式,逐次更新各聚类的中心点的值,直到得到最好的聚类结果。
K-Means算法复杂度根据其处理的网络资源的数量、网络资源的维度、聚类数量以及迭代的次数来确定。而在实际的网络资源聚类的过程中,需要进行聚类的网络资源的数量非常的大,可以达到上百亿或者上千亿,而网络资源的维度也可以达到上千维度或者上万维度,聚类数量也可以达到百万级别,此时即使迭代的次数不到100,但在进行聚类处理时,非常耗时,导致聚类效率较低。实验表明上述聚类过程采用性能较优良的100台服务器并行处理,也需要7天以上的时间才能完成。
为了改善该迭代过程,提高聚类处理过程的效率,google公司提出了一种基于流式思路的K-Means算法,具体实现架构如下:
初始化
While(数据流未结束){
While(中心点未超过阈值){
流式的中心点计算
}
While(中心点超过阈值){
中心点压缩
}
}
Batch Kmeans算法计算
Ball Kmeans Algorithm计算
该方法针对全部的网络资源只遍历一遍,虽然提高了聚类处理的效率,但是导致聚类的结果不够精确。
发明内容
本发明实施例提供一种进行网络资源聚类的方法及装置,用以解决现有技术中基于K-Means算法进行网络资源聚类时无法同时保证聚类的效率和准确度的问题。
本发明实施例提供了一种进行网络资源聚类的方法,该方法包括:
根据设置的总的聚类数量,及对网络资源进行聚类处理的层数,确定每层对应的子聚类数量,其中所述层数大于等于2;
针对每层中每组待聚类的网络资源,分别并行进行下述步骤:
针对每组待聚类的网络资源,根据该层对应的子聚类数量,在该组中初始化得到相应数量的中心点;
根据该组中的每个中心点及该组中待聚类的网络资源,采用K-Means算法进行聚类处理;并
当确定当前为最后一层聚类处理时,输出网络资源的聚类结果,否则,将当前聚类后的每组网络资源作为下一层聚类处理的每组待聚类的网络资源,进行下一层的聚类处理。
较佳地,为了进一步提高聚类处理的效率,所述方法在对网络资源进行第一层的聚类处理之前,所述方法还包括:
判断待聚类的网络资源的维度是否不大于设定的维度阈值;
当待聚类的网络资源的维度大于设定的维度阈值时,按照设置的降低维度的方法对待聚类的网络资源进行降维处理。
较佳地,为了保证提供的结果的准确性,当对待聚类的网络资源进行降维处理后,所述输出网络资源的聚类结果之前,所述方法还包括:
针对每组聚类后的网络资源,根据每个网络资源降低的维度,对该网络资源进行升高维度的处理。
较佳地,为了进一步提高聚类处理的效率,所述按照设置的降低维度的方法对待聚类的网络资源进行降维处理包括:
在所述待聚类的网络资源中进行数据采样,根据采样后的数据及设置的降低维度的方法,确定降维模型;
根据降维模型及待聚类的网络资源,对待聚类的网络资源进行降维处理。
较佳地,为了扩大本发明实施例的适用范围,所述网络资源包括:
图片资源、文字资源和音频资源。
较佳地,为了保证提供的结果的准确性,所述在该组中初始化得到相应数量的中心点包括:
判断当前进行的是否为第一层聚类处理;
若当前进行的是第一层聚类处理,将总的网络资源作为第一层进行聚类处理的一组待聚类的网络资源,根据该第一层对应的子聚类数量,在组待聚类的网络资源中初始化得到相应数量的中心点;
否则,该每组待聚类的网络资源为上一层聚类后得到的每组网络资源,根据该层对应的子聚类数量,在每组待聚类的网络资源中初始化,得到相应数量的中心点。
本发明实施例提供一种进行网络资源聚类的装置,所述装置包括:
确定模块,用于根据设置的总的聚类数量,及对网络资源进行聚类处理的层数,确定每层对应的子聚类数量,其中所述层数大于等于2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310642355.6/2.html,转载请声明来源钻瓜专利网。