[发明专利]一种边界数据划分方法与设备有效

专利信息
申请号: 201610427861.7 申请日: 2016-06-16
公开(公告)号: CN107516101B 公开(公告)日: 2021-07-06
发明(设计)人: 王曜 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 上海百一领御专利代理事务所(普通合伙) 31243 代理人: 陈贞健;周建华
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 边界 数据 划分 方法 设备
【说明书】:

本申请的目的是提供一种边界数据划分方法及设备,具体地,通过聚类结果中关联聚类群组的无争议数据获取边界数据的关联高密度区间,并在所述关联聚类群组的无争议数据中截取处于所述关联高密度区间内的集中数据,然后对边界数据与所述关联高密度区间内的集中数据的相似度进行分析,最后基于相似度对边界数据进行划分,能够对边界数据进行准确的分类,使得数据分类精确、无损失。

技术领域

本申请涉及计算机领域,尤其涉及一种边界数据划分的技术。

背景技术

目前聚类相关的数据挖掘工作中常常会用到K-Means聚类算法来对数据进行聚类划分,K-Means聚类算法主要是依据两点之间的距离来将数据划分为多个不同的聚类群组。而在K-Means聚类算法中,某一数据与聚类群组的中心点的距离越近,则表示该数据与该聚类群组中的其它数据相似度越高。也就是说,K-Means聚类算法是将数据划分至与该数据距离最近的中心点所属的聚类群组中的。但是,在实际场景中,当一个数据与两个或者两个以上聚类群组的中心点的距离相一致时,该数据将无法被分类至唯一的一个聚类群组中,就会出现分类错误或者无法判断的问题,此类数据即为边界数据。如果数据量较少的话,该问题所造成的影响不会很大。但是,在海量数据面前,这个问题所带来的缺陷就会被放大,进而造成一批数据量不小的待鉴别数据的出现。因此,如何对这批待鉴别数据进行准确分类成为本领域技术人员急需解决的问题。

发明内容

本申请的一个目的是提供一种边界数据划分方法与设备,以解决现有技术中无法对聚类结果中的边界数据进行准确划分的问题。

为实现上述目的,本申请提供了一种边界数据划分方法,该方法包括:

根据聚类结果中关联聚类群组的无争议数据获取边界数据的关联高密度区间,所述关联聚类群组为多个与所述边界数据的相似度相同的聚类群组;

在所述关联聚类群组的无争议数据中截取处于所述关联高密度区间内的集中数据;

获取所述边界数据与所述关联聚类群组的集中数据的相似度;

根据所述相似度将所述边界数据划分至所述关联聚类群组中的目标聚类群组中,作为所述目标聚类群组的无争议数据,以更新所述聚类结果。

进一步地,根据关联聚类群组的无争议数据获取边界数据的关联高密度区间之前,还包括:

通过聚类算法对样本数据进行聚类处理,获取聚类结果,其中,所述聚类结果包含多个聚类群组的无争议数据以及与至少两个聚类群组的相似度相同的边界数据。

进一步地,根据关联聚类群组的无争议数据获取边界数据的关联高密度区间,包括:

将关联聚类群组中无争议数据的标准差作为对应关联高密度区间的上限值,以及根据关联聚类群组中无争议数据的数量确定对应关联高密度区间的下限值。

进一步地,获取所述边界数据与所述关联聚类群组的集中数据的相似度,包括:

获取所述关联聚类群组的集中数据的中位数数据;

获取所述边界数据与所述中位数数据的欧式距离;

根据所述欧式距离确定所述边界数据与所述关联聚类群组的集中数据的相似度。

进一步地,根据所述相似度将所述边界数据划分至所述关联聚类群组中的目标聚类群组中,作为所述目标聚类群组的无争议数据,以更新所述聚类结果,包括:

若所述相似度中仅存在一个最高值,将所述最高值所对应的聚类群组作为目标聚类群组,并将所述边界数据划分至所述目标聚类群组中,作为所述目标聚类群组的无争议数据,以更新所述聚类结果。

进一步地,该方法还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610427861.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top