[发明专利]一种大数据实例约简方法、装置、电子设备及存储介质在审
申请号: | 202210968071.5 | 申请日: | 2022-08-12 |
公开(公告)号: | CN115358308A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 傅雨婷 | 申请(专利权)人: | 天翼数字生活科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 200000 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 实例 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种大数据实例约简方法、装置、电子设备及存储介质,用于解决传统的大数据约简方法容易造成信息丢失,抽样效率低、样本代表性差的技术问题。本发明包括:对预设的初始大数据集进行逻辑分块,得到逻辑数据块;分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;获取每个目标类簇的目标聚类中心和目标重心;以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;将所述最优极小样本数据集作为所述初始大数据集的约简结果。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据实例约简方法、装置、电子设备及存储介质。
背景技术
大数据难题很大程度上源于其数据量的大规模性以及其特征的高维性,与此同时,通常还需要利用它的大规模实例和高维特征来实现相应的需求。大数据的约简和降维预处理方法都是旨在尽可能保证原大数据的特点和分布特性的情况下降低其数据规模,现有的经典随机抽样算法尽管可以直接用于数据实例约简问题,然而其具有一定的局限性。由于大数据集中的数据通常不是均匀分布的,如果用传统的抽样方法进行实例约简很容易造成信息丢失、抽样效率低和样本代表性差等问题。
发明内容
本发明提供了一种大数据实例约简方法、装置、电子设备及存储介质,用于解决传统的大数据约简方法容易造成信息丢失,抽样效率低、样本代表性差的技术问题。
本发明提供了一种大数据实例约简方法,包括:
对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
获取每个目标类簇的目标聚类中心和目标重心;
以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
将所述最优极小样本数据集作为所述初始大数据集的约简结果。
可选地,每个所述逻辑数据块均具有多个数据实例;所述分别对每个所述逻辑数据块进行聚类,得到多个目标类簇的步骤,包括:
采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
可选地,还包括:
若所述初始误差平方和与所述更新误差平方和的差值的绝对值不小于所述预设阈值,则将所述更新误差平方和作为所述初始误差平方和,将所述更新重心作为所述初始重心,并返回以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。
可选地,所述采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心的步骤,包括:
在所述逻辑数据块中任取一个数据实例作为第一聚类中心;
在所述逻辑数据块中找出与所述第一聚类中心距离最大的数据实例作为第二聚类中心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼数字生活科技有限公司,未经天翼数字生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210968071.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置