[发明专利]一种适合大规模数据的快速非递归聚类方法在审

申请号：	201510206140.9	申请日：	2015-04-27
公开（公告）号：	CN104850594A	公开（公告）日：	2015-08-19
发明（设计）人：	冀俊忠;高明霞;宋辰;刘金铎	申请（专利权）人：	北京工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种适合大规模数据的快速非递归聚类方法属于数据挖掘技术领域。该方法采用两层循环实现数据聚类，先定义了两个定位指针，然后从数据序列中随机选定一个基准数据看作簇的代表数据，并将其交换到待处理数据的最右边，同时定义扫描过程指针并初始化。对待处理数据进行扫描并计算剩余数据和该基准数据的相似度值并和用户阈值比较，根据比较结果调整剩余数据在序列中的位置，遵循相似度值大于用户阈值的数据交换到序列左侧，相似度值小于用户阈值的数据交换到序列右侧，就完成了一次数据分割。最后重置定位指针，定位新的待处理数据并返回外层循环继续执行，直到整个数据序列聚类完成。本发明适用于球型数据且对时间有较高要求的大规模数据集聚类。
搜索关键词：	一种适合大规模数据快速递归方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种适合大规模数据的快速非递归聚类方法，其特征在于步骤如下：步骤1：输入用户相似度阈值K以及包含n个数据样本的初始待处理数据序列D，K的参考取值通常是同一簇中元素间的最小相似度值；步骤2：定义待处理数据序列头和尾的指示指针分别为start和end，也即赋初值start等于1,end等于n；步骤3：从待处理数据序列中随机选择一个数据作为基准值，并将其与end指示的数据进行交换；步骤4：定义扫描指针i、j，并赋初值使的j等于start，i等于j指针向左移1位的取值；步骤5：如果j>＝end则执行步骤6，否则从左向右扫描指针start和end指示的序列，根据选定的相似度计算方式计算j指定的当前数据和基准值的相似度,并和用户阈值进行比较，如果相似度大于或等于用户阈值，则执行i指针向右移1步，并交换指针i和j指定的数据，然后j向右移1步，继续循环扫描，执行步骤5；如果相似度小于用户阈值则j向右移1步，继续循环扫描，执行步骤5；步骤6：向右移动i指针1步，并交换i和end指定的数据；步骤7：向右移动i指针1步，如果i小于end则重置start指针，使其指向i指针指示的数据并返回步骤3继续循环，否则算法终止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510206140.9/，转载请声明来源钻瓜专利网。

上一篇：一种利用可视化图形进行信息采集与分析的方法与系统
下一篇：一种Surpac测量验收系统数据的标注方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种适合大规模数据的快速非递归聚类方法在审

专利文献下载