[发明专利]面向海量数据近似快速聚类和索引方法无效

申请号：	200810059127.5	申请日：	2008-01-14
公开（公告）号：	CN101339553A	公开（公告）日：	2009-01-07
发明（设计）人：	庄越挺;吴飞;夏丁胤;郭同强;张绪青	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州求是专利事务所有限公司	代理人：	张法高
地址：	310027***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种面向海量数据的递归分块信息传递聚类和索引方法。利用该方法可以实现各种海量数据的准确，快速的聚类和适用于查询，更新的索引结构。用户可以将海量的无序数据进行处理，快速的进行聚类并索引，有利于以后的查询，检索，维护和更新。此方法可以应用于面向互联网的海量文本，图像，音频，视频等快速聚类和索引，也可以应用于海量生物基因序列的相似度比较，同源蛋白质检测。本发明还公开了一种近似的快速海量数据的聚类方法，利用该方法可以在保证聚类效果损失不大的情况下，能够呈指数级的加快聚类的速度。并且还能较好有利于训练集以外数据进行聚类，插入和更新，因此该方法可以普遍适用于各种复杂的海量数据的快速聚类和索引。
搜索关键词：	面向海量数据近似快速索引方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于分块递归信息传递的聚类方法，其特征在于包括如下步骤：输入包括N个数据对象的集合，这些对象之间的相似度矩阵SN×N，其中S[i，j]≤0(i＝1ΛN，j＝1ΛN)，我们对其进行基于分块递归信息传递的聚类：1)将相似度矩阵SN×N平均分成k部分，接着对每部分再平均分成m部分，...并照此类推下去：

S = (\begin{matrix} (\begin{matrix} S_{11} & L & S_{1 m} \\ M & O & M \\ S_{m 1} & L & S_{mm} \end{matrix}) & L & (\begin{matrix} L & S_{1 k} \\ O & M \end{matrix}) \\ M & O & M \\ (\begin{matrix} M & O \\ S_{k 1} & L \end{matrix}) & L & (\begin{matrix} O & M \\ L & S_{kk} \end{matrix}) \end{matrix}) 2)把子矩阵S11，S22，L Smm，L Skk通过基于消息传播的AP聚类方法迭代计算，得到k个消息传播子矩阵A11，A22，L，Amm，L Akk；3)将步骤2)中的消息传播子矩阵A11，A22，L，Amm，L Akk在对角线上合并，将其余部分设为0，得到整个数据集的消息传播矩阵A′： A^{'} = (\begin{matrix} (\begin{matrix} A_{11} & L & A_{1 m} \\ M & O & M \\ A_{m 1} & L & A_{mm} \end{matrix}) & L & 0 \\ M & O & M \\ 0 & L & (\begin{matrix} O & M \\ L & A_{kk} \end{matrix}) \end{matrix}) 除A11，A22，L，Amm，L Akk以外，消息传播矩阵A′的其余部分为0；4)以A′作为递归分块信息传递的聚类方法的起始信息传递矩阵AN×N，作为迭代起点再利用AP聚类方法得到最终聚类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810059127.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向海量数据近似快速聚类和索引方法无效

专利文献下载