[发明专利]一种基于模糊C均值的分布式集成聚类分析方法有效
申请号: | 201910981453.X | 申请日: | 2019-10-16 |
公开(公告)号: | CN110880015B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 母亚双;王利东;刘晓东 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06F18/2321 | 分类号: | G06F18/2321;G06F18/214;G06F16/27 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 沈艳尼 |
地址: | 450001 河南省*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 均值 分布式 集成 聚类分析 方法 | ||
本发明涉及一种基于模糊C均值的分布式集成聚类分析方法,属于机器学习、大数据分析技术领域。本发明根据模糊C均值理论,针对传统聚类分析方法在处理大规模数集时所面临的瓶颈因素,在Map‑Reduce分布式计算模型下,先通过对数据的分布进行随机分块,然后提取每块数据的聚类中心,并对每块数据的聚类中心进行集成融合,最终完成大规模数据的聚类分析过程。本发明对大规模数据的聚类问题进行了分布式集成分析,实现数据聚类分析过程中既确保聚类精度的同时又使得聚类时间较低的目标。
技术领域
本发明涉及一种基于模糊C均值的分布式集成聚类分析方法,属于机器学习、大数据分析技术领域。
背景技术
随着科学技术的不断进步、互联网的快速发展和数据库技术的日臻完善,人类社会的各行各业中都在源源不断地产生新的数据,例如“购物”、“饮食”、“旅游”、“医疗”等正在积累着越来越多的数据,大数据时代已经来临。大数据已经与我们的生活息息相关、密不可分。传统的数据分析方法在处理有限的或少量的数据发挥了不错的优势,但是面对目前如此海量的数据,传统数据方法却面临着极其严重的数据爆炸问题。从硬件层面上看,虽然计算机硬件已经迅猛发展,但就单个计算机机而言,其存储、管理和分析的能力依然无法满足大数据的需求;从软件层面来上看,大数据的规模已经超越了传统的数据分析方法在可容忍时间内的俘获、管理和处理的能力。
由于这些海量数据中蕴含着极其有价值的信息,对社会生产和日常生活会产生重要的影响,因而对大数据分析与处理的科学研究也愈发受到社会各界的重视。许多学者给予大数据在三个维度(即,3Vs,Volume-数据的容量,Velocity-数据的输入输出速度,Variety-数据的类型和来源)上的复杂性,并指出了其面临的日益严峻的挑战和机遇。大数据是一种新的需要能够加强决策、发现和优化处理模式的高容量、高速度以及多样化的信息资产。经典机器学习所研究的数据(普通)不仅在3Vs上与大数据有本质的不同,而且其算法一般都需要多次遍历所有样本,并将数据读入内存中,这就注定了经典机器学习算法会面临大数据的3Vs灾难。如何将硬件设备和软件技术相结合并针对大数据进行有效的分析和处理,即基于硬件和软件的大规模数据挖掘技术,已经成为了当今时代的研究热点,也是推动学科进步与发展所亟待解决的问题之一。
模糊C均值(FCM)聚类是数据分析领域著名的算法之一。由于FCM算法具有聚类速度快、准确率高以及参数少等优点,目前已经成为一种非常受欢迎的聚类算法之一,在信用评估、医疗卫生、交通管理等实际领域中得到了广泛的应用。随着日常生活中产生数据的急剧增加,在大数据中利用FCM模型进行数据分析与处理已经不可避免。传统的FCM算法或模型在处理小规模数据集或中型数据集上已经取得了非常不错的效果,但是这些算法却无法直接处理大规模数据聚类问题,产生这种现象的原因,归结起来主要有以下几个层面:
内存限制:每台计算机的内存是固定的,对于大规模数据集,将所有的训练样本数据或大多数训练样本数据都保存到一台计算机的内存中是非常困难的。
时间复杂度:对于大数据而言,算法的分析与处理是非常耗时的,在可接受的时间范围内完成实验过程是非常困难的。
数据复杂度:大规模数据集在特征上的高维度和多模式对实验的设计是非常困难的,同时在性能上也会对实验结果有较大的影响。
由于上述原因,并行计算或分布式计算成为了众多机器学习算法进行大数据分析与处理的一种常用并且可靠的选择。首先,并行计算可以通过将数据存储在多台计算机资源上来解决数据存储问题,另外,并行计算能使程序在多台机器上同时运行,这大大提升算法的执行效率。虽然目前现有的一些FCM的并行实现能够处理大数据分析问题,但是这些方法的共同之处都是将并行计算技术应用于FCM算法的局部或者每次的迭代之中,由于硬件配置的差异、网络通信的延迟以及数据分配不均衡等原因,集群中的计算机之间存在着大量的通信开销,导致该类算法的聚类效率并不高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910981453.X/2.html,转载请声明来源钻瓜专利网。