[发明专利]一种大数据实例约简方法、装置、电子设备及存储介质在审
申请号: | 202210968071.5 | 申请日: | 2022-08-12 |
公开(公告)号: | CN115358308A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 傅雨婷 | 申请(专利权)人: | 天翼数字生活科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 200000 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 实例 方法 装置 电子设备 存储 介质 | ||
1.一种大数据实例约简方法,其特征在于,包括:
对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
获取每个目标类簇的目标聚类中心和目标重心;
以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
将所述最优极小样本数据集作为所述初始大数据集的约简结果。
2.根据权利要求1所述的方法,其特征在于,每个所述逻辑数据块均具有多个数据实例;所述分别对每个所述逻辑数据块进行聚类,得到多个目标类簇的步骤,包括:
采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
3.根据权利要求2所述的方法,其特征在于,还包括:
若所述初始误差平方和与所述更新误差平方和的差值的绝对值不小于所述预设阈值,则将所述更新误差平方和作为所述初始误差平方和,将所述更新重心作为所述初始重心,并返回以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。
4.根据权利要求2所述的方法,其特征在于,所述采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心的步骤,包括:
在所述逻辑数据块中任取一个数据实例作为第一聚类中心;
在所述逻辑数据块中找出与所述第一聚类中心距离最大的数据实例作为第二聚类中心;
将所述第一聚类中心和所述第二聚类中心添加进聚类中心集中;
计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值;
获取所有所述最小距离值中的最大值;
判断所述最大值是否满足预设检验条件;
若否,将所述聚类中心集中的聚类中心作为所述逻辑数据块的初始聚类中心。
5.根据权利要求4所述的方法,其特征在于,还包括:
若所述最大值满足预设检验条件,则将所述最大值对应的数据实例作为第三聚类中心,将所述第三聚类中心添加进所述聚类中心集中,并返回所述计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值的步骤。
6.根据权利要求1所述的方法,其特征在于,所述以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集的步骤,包括:
根据每个目标类簇的最优抽样规模在所述目标类簇中随机抽取样本数据;
采用所述目标聚类中心和所述目标重心分别对应的数据实例,以及所述样本数据生成所述目标类簇的类簇最优极小样本数据集;
采用所述逻辑数据块的所有目标类簇分别对应的类簇最优极小样本数据集,生成所述逻辑数据块的块最优极小样本数据集;
采用所述初始大数据集的所有逻辑数据块分别对应的块最优极小样本数据集,生成所述初始大数据集的最优极小样本数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼数字生活科技有限公司,未经天翼数字生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210968071.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置