[发明专利]一种高效的并行不确定性数据聚类方法在审
申请号: | 201910334513.9 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110059142A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 吴翠先;何少元;何登平 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/27;G06F16/2458;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不确定性数据 聚类 距离度量 并行 并行计算 构建 不确定性 负载均衡 高效运行 聚类算法 模型实现 统计信息 最小边界 数据集 点数 推导 度量 分区 均衡 引入 分析 | ||
本发明是一种高效的并行不确定性数据聚类方法。包括,利用区间数结合不确定性数据的统计信息来对不确定性数据进行描述。距离度量,对区间数间的距离进行进一步分析推导,得到更加适合不确定性数据间距离度量的距离度量方式。将数据的不确定性度量与表示,以及距离度量引入到聚类算法OPTICS中,来构建串行的不确定性数据聚类方法。使用MDD‑PRBP方法对数据集进行最小边界点数和均衡的分区划分,保障后续并行计算的负载均衡与聚类方法最终的高效运行。结合Hadoop平台,运用MapReduce模型实现并行计算,构建出一种高效的并行不确定性数据聚类方法。
技术领域
本发明属于静态不确定性数据集的数据挖掘领域,具体涉及到一 种高效的并行不确定性数据聚类方法。
背景技术
随着无线通信技术与网络信息技术的快速发展,数据的产生极其 迅速,数据量也极其巨大。然而,由于原始数据不准确、采用粗粒度 数据集合、出于隐私保护的特殊目的等原因,导致在电信、气象等众 多领域中普遍包含不确定性数据。不确定性数据的聚类分析方法作为 一种有实际意义而且有效的方法,可在众多存在不确定性数据的领域 应用。
不确定性数据的聚类问题十分具有挑战性。传统的数据聚类方法, 由于其方法中没有处理数据不确定性的必要步骤,又只能单机串行运 行,使得传统的数据聚类方法具有局限性。其只能较好的聚类确定性 数据,且无法满足聚类大数据集的需要,如果将其直接用于聚类具有 不确定性的数据则会使聚类结果极差。
发明内容
鉴于此,本发明提供一种高效聚类不确定性数据的聚类方法,以 解决现有对不确定性数据进行聚类困难的问题。为了可以高效地聚类 不确定性数据,首先,必须考虑数据的不确定性,并对数据的不确定 性进行度量与表示;其次,运用合理的距离度量方法对不确定性数据 进行距离度量;然后,将数据的不确定性度量与表示,以及不确定性 数据间距离度量方法引入到基于密度的聚类算法OPTICS(Ordering Points To Identify theClustering Structure,点排序识别聚类结 构)中;然后,使用MDD-PRBP方法进行数据分区划分,数据分区划分 方法对数据集进行最小边界点数和均衡的分区划分;最后,结合Hadoop平台,运用MapReduce模型实现并行计算。进而,提出一种 高效的并行不确定性数据聚类方法,从而实现对不确定性数据的有效 聚类。
为实现以上发明目的,提出一种高效的并行不确定性数据聚类方 法,具体包括以下步骤:
第一步:数据的不确定性度量与表示。对采集到的不确定性数据 利用区间数结合数据对象的均值与标准差,并引入包含因子k来合理 的表示不确定性数据对象。
第二步:距离度量。采用新的区间数间的距离度量方式,进行推 导。将其用于不确定性数据对象间的距离度量。
第三步:构建串行的不确定性数据聚类方法。将数据的不确定性 度量与表示,以及距离度量引入到基于密度的聚类算法OPTICS中, 使传统OPTICS算法具有聚类不确定性数据的能力。
第四步:数据分区划分。使用MDD-PRBP方法进行数据分区划分, 该方法对数据集进行最小边界点数和均衡的分区划分,保障后续并行 计算的负载均衡与聚类方法最终的高效运行。
第五步:构建高效的并行不确定性数据聚类方法。结合Hadoop 平台,运用MapReduce模型实现并行计算。构建出一种高效的并行不 确定性数据聚类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334513.9/2.html,转载请声明来源钻瓜专利网。