[发明专利]一种基于内存计算的并行化聚类方法有效

申请号：	201610519403.6	申请日：	2016-06-30
公开（公告）号：	CN106203494B	公开（公告）日：	2019-12-13
发明（设计）人：	田玲;罗光春;陈爱国;殷光强	申请（专利权）人：	电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	51230 成都弘毅天承知识产权代理有限公司	代理人：	徐金琼
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于内存计算的并行化聚类方法，其主旨在于解决聚类算法DBSCAN在处理海量数据下的效率问题，其方案为：S1：基于简单随机抽样的数据划分，以<ID,Raw_data>作为此阶段的输入，通过对原始数据进行简单随机抽样来完成数据的切分，并将切分的结果保存到不同的RDD；S2：利用内存计算模型在各个计算节点并行执行DBSCAN算法，对不同的RDD中的原始数据进行聚类，产生局部类簇；S3：基于重心合并所有的局部类簇，利用内存计算模型对局部类簇进行合并，从而产生全局聚类结果。本发明基于内存计算模型，通过简单的数据划分方式对原始数据进行切割，极大地提高了算法的处理效率。同时，基于重心距离的局部类簇合并能快速地构建全局类簇，满足了处理大规模数据的用户需求。
搜索关键词：	一种基于内存计算并行化聚类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于内存计算的并行化聚类方法，包括如下步骤：/nS1：基于简单随机抽样的数据划分，以<ID,Raw_data>作为此阶段的输入，通过对原始数据进行简单随机抽样来完成数据的切分，并将切分的结果保存到不同的RDD；/nS2：利用内存计算模型在各个计算节点并行执行DBSCAN算法，对不同的RDD中的原始数据进行聚类，产生局部类簇；/nS3：基于重心合并所有的局部类簇，利用内存计算模型对局部类簇进行合并，从而产生全局聚类结果；/nS11：在集群中启动实现map接口的作业，各个节点以原始数据作为输入，通过自定义的random()函数所产生的随机数作为当前数据的key值，生成带有新的划分标识的原始数据RDD集合；/nS12：将S11中产生的RDD集合按照划分标识分解成对应的局部RDD集合；/nS21：对每个局部RDD集合，首先根据数据划分个数确定聚类的邻域半径ε以及阈值MinPts；/nS22：选取任一数据对象进行邻域查询，若该对象为核心对象，则将其邻域内所有的数据加入到list中，进行递归调用；若该对象为噪声对象，则将其标记为Noise；/nS23：重复S22，直到所有的对象均被标记，同时尽可能的归到某个类簇中，或者找出那些不属于任何类簇的噪声对象；/nS24：生成局部类簇RDD；/nS31：计算各个数据划分中局部类簇之间的距离，求得最小值局部d

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610519403.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于内存计算的并行化聚类方法有效

专利文献下载