[发明专利]基于聚类的度量空间数据划分与性能衡量方法及相关组件有效
申请号: | 202110712784.0 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113435501B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 毛睿;刘林锋;陆敏华;王毅;刘刚;陆克中;陈倩婷 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/23 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 度量 空间 数据 划分 性能 衡量 方法 相关 组件 | ||
本发明公开了基于聚类的度量空间数据划分与性能衡量方法及相关组件,该方法包括输入样本数据集、支撑点集合以及划分块数,输出划分后的数据块;输入查询对象、查询半径、每一数据块的中心、支撑点集合以及划分块数,输出数据块的排除结果;基于多个聚集向量数据集进行数据划分后得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r‑邻域内点的数目以及根节点的平均排除率;将每一聚集向量数据集的所有数据点作为查询点,统计距离计算的次数,根据统计的次数得到划分性能。本发明针对有聚类信息的数据集,在数据划分后可以很好的保留聚类信息,具有对有聚类关系的数据集的划分性能好的优点。
技术领域
本发明涉及度量空间领域,尤其涉及一种基于聚类的度量空间数据划分与性能衡量方法及相关组件。
背景技术
随着大数据时代的来临,人们所要处理的数据类型越来越多,为这些不同类型的数据开发不同的处理方法,通常性价都会比较低、维护困难。因此一种性价比较高的方案是开发一种通用的数据管理分析系统,该系统可以将各种类型的数据抽象成统一的一种数据类型,后续的方法设计都可以针对统一的数据类型进行设计和分析。通用的数据管理分析系统通常选取度量空间作为数据的统一抽象,构建树状的度量空间索引,以此达到通用的目的。
在度量空间划分领域中,VP划分和GH划分是比较常用的数据划分方法,但一般只在均匀数据上表现较好,在面对在支撑点空间中保留了大量的类簇信息的数据集时,VP划分和GH划分在索引树的根节点其划分边界不能很好的适配数据的分布,即划分边界不一定落到数据簇的空隙之间,从而在根节点不能最大程度的提高查询的排除率,因此很难在根节点将这类数据很好的按类别划分开来。
发明内容
本发明的目的是提供一种基于聚类的度量空间数据划分与性能衡量方法及相关组件,旨在解决现有数据划分方法难以对具有类簇信息的数据集进行很好的划分的问题。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种基于聚类的度量空间数据划分与性能衡量方法,包括:
输入样本数据集、支撑点集合以及划分块数,输出划分后的数据块;
输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数,输出所述数据块的排除结果;
基于多个聚集向量数据集,确定每个所述聚集向量数据集的多个查询半径;
将所述划分块数设置为所述聚集向量数据集的类别数目,使用支撑点集合对每一聚集向量数据集进行数据划分,得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r-邻域内点的数目以及根节点的平均排除率;
将每一聚集向量数据集的所有数据点作为查询点,统计距离计算的次数,根据统计的次数得到划分性能。
另外,本发明要解决的技术问题是还在于提供一种基于聚类的度量空间数据划分与性能衡量装置,包括:
划分单元,用于输入样本数据集、支撑点集合以及划分块数,输出划分后的数据块;
搜索单元,用于输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数,输出所述数据块的排除结果;
确定单元,用于基于多个聚集向量数据集,确定每个所述聚集向量数据集的多个查询半径;
计算单元,用于将所述划分块数设置为所述聚集向量数据集的类别数目,使用支撑点集合对每一聚集向量数据集进行数据划分,得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r-邻域内点的数目以及根节点的平均排除率;
统计单元,用于将每一聚集向量数据集的所有数据点作为查询点,统计距离计算的次数,根据统计的次数得到划分性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110712784.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冷箱
- 下一篇:一种数据传输方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置