[发明专利]数据聚类方法、装置及存储介质在审
申请号: | 201811030449.7 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109117895A | 公开(公告)日: | 2019-01-01 |
发明(设计)人: | 赛影辉;张国兴;李中兵 | 申请(专利权)人: | 奇瑞汽车股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 唐述灿 |
地址: | 241006 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 数据聚类 样本 均匀样本 位置更新 聚类 存储介质 聚类技术 均匀采样 数据集中 原始样本 准确率 聚合 数据挖掘技术 终端运行 更新 | ||
1.一种数据聚类方法,其特征在于,所述方法包括:
对原始样本数据集进行均匀采样,得到均匀样本数据集;
对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;
通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。
2.如权利要求1所述的方法,其特征在于,所述对原始样本数据集进行均匀采样,得到均匀样本数据集,包括:
将所述原始样本数据集进行高斯分布拟合,得到标准样本数据集;
确定所述标准样本数据集的中心点的坐标和各个样本的坐标;
基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集。
3.如权利要求2所述的方法,其特征在于,所述基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集,包括:
基于所述中心点的坐标和所述各个样本的坐标,确定所述中心点与所述各个样本之间的距离;
将距离所述中心点最近的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;
基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵;
基于所述距离矩阵中每一行中的最大距离值,确定距离列向量;
将所述距离列向量中最小距离值在所述标准样本数据集中对应的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;
当所述均匀样本数据集中样本的个数未达到样本数量阈值时,返回所述基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵的操作,直至所述均匀样本数据集中样本的个数达到所述样本数量阈值为止。
4.如权利要求1所述的方法,其特征在于,所述对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集,包括:
通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点;
基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数;
基于所述每个样本的局部标准化参数,确定所述均匀样本数据集中每个样本与其他样本之间的样本权重;
基于所述样本权重和所述每个样本当前的坐标,确定所述每个样本更新后的坐标;
当确定所述每个样本更新后的坐标与上一次确定的坐标之间变化值大于坐标变化阈值时,对每个样本的坐标进行更新并返回所述通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点的操作,直至所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值为止;
当所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值时,将坐标更新后的样本组成的数据集确定为所述位置更新后的数据集。
5.如权利要求4所述的方法,其特征在于,所述基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数,包括:
基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,通过如下第一公式确定所述均匀样本数据集中所述每个样本的局部标准化参数;
其中,所述t(i)为所述均匀样本数据集中任一样本i的局部标准化参数,所述yt为所述任一样本i的k个邻近点中任一邻近点的坐标,所述yi为所述任一样本i的坐标,所述kNN(yi)为所述任一样本i的k个邻近点的坐标集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇瑞汽车股份有限公司,未经奇瑞汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811030449.7/1.html,转载请声明来源钻瓜专利网。