[发明专利]数据聚类方法、装置及存储介质在审
申请号: | 201811030449.7 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109117895A | 公开(公告)日: | 2019-01-01 |
发明(设计)人: | 赛影辉;张国兴;李中兵 | 申请(专利权)人: | 奇瑞汽车股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 唐述灿 |
地址: | 241006 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 数据聚类 样本 均匀样本 位置更新 聚类 存储介质 聚类技术 均匀采样 数据集中 原始样本 准确率 聚合 数据挖掘技术 终端运行 更新 | ||
本发明公开了一种数据聚类方法、装置及存储介质,属于数据挖掘技术领域。所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。本发明通过对原始样本数据集进行均匀采样减少了样本数量,从而减少了终端运行资源,提高了聚类速度,后续对得到的均匀样本数据集中的各个样本的位置进行更新,并通过聚合聚类技术在位置更新后的数据集上进行数据聚类,提高了对样本进行聚类的准确率,提高了对样本进行聚类的准确率。
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种数据聚类方法、装置及存储介质。
背景技术
在大数据环境下,在很多的应用场景中需要使用到形状聚类算法来解决问题。例如在地理信息处理领域中,使用聚类算法提取出山脉、河流的地形信息;在图像处理领域识别出图像中的人或物;在医药学领域对蛋白质结构进行聚类,识别出不同类型的蛋白质等等。其中,聚类算法是指通过一个数据集中各个数据样本之间的相似性,将相似的数据样本划分到同一个聚类中,从而实现将原始数据集的样本划分为多个聚类的算法。
目前,聚类算法通常需要一定的先验知识,有时候在进行形状聚类时可以将数据集分成各种凸型、超球型聚类等,
但是,由于在进行聚类时对数据集的形状有偏向,导致有很多形状的数据并不能完成聚类,且都具有较高的时间复杂度,从而导致算法复杂,降低了聚类效率和准确性。
发明内容
本发明实施例提供了一种数据聚类方法、装置及存储介质,用于解决相关技术中聚类效率低准确性低的问题。所述技术方案如下:
第一方面,提供了一种数据聚类方法,所述方法包括:
对原始样本数据集进行均匀采样,得到均匀样本数据集;
对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;
通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。
可选地,所述对原始样本数据集进行均匀采样,得到均匀样本数据集,包括:
将所述原始样本数据集进行高斯分布拟合,得到标准样本数据集;
确定所述标准样本数据集的中心点的坐标和各个样本的坐标;
基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集。
可选地,所述基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集,包括:
基于所述中心点的坐标和所述各个样本的坐标,确定所述中心点与所述各个样本之间的距离;
将距离所述中心点最近的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;
基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵;
基于所述距离矩阵中每一行中的最大距离值,确定距离列向量;
将所述距离列向量中最小距离值在所述标准样本数据集中对应的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;
当所述均匀样本数据集中样本的个数未达到样本数量阈值时,返回所述基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵的操作,直至所述均匀样本数据集中样本的个数达到所述样本数量阈值为止。
可选地,所述对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇瑞汽车股份有限公司,未经奇瑞汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811030449.7/2.html,转载请声明来源钻瓜专利网。