[发明专利]一种数据采样方法及装置在审
申请号: | 201910763259.4 | 申请日: | 2019-08-19 |
公开(公告)号: | CN110580498A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 彭亚楠;李宗鹏;黄浩 | 申请(专利权)人: | 武汉万般上品信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 42222 武汉科皓知识产权代理事务所(特殊普通合伙) | 代理人: | 罗飞 |
地址: | 430073 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 网格 维度 数据样本 直方图 聚类 带宽 空格 均值聚类算法 数据预处理 采样结果 采样效果 分布形状 计算效率 密度估计 数据采样 原始数据 采样点 初始点 样本数 格子 预设 分解 返回 | ||
1.一种数据采样方法,其特征在于,包括:
步骤S1:确定给定数据集的目标维度,获得以目标维度为维度的新的数据集;
步骤S2:计算新的数据集的每一个维度上的最优宽带;
步骤S3:根据计算出的最优宽带在每一个维度上采用直方图密度估计方法划分格子,组成网格,其中,网格中的非空格中包含数据样本;
步骤S4:从网格中筛选出具有最高样本数的预设比例的非空格,并计算每个格中数据样本的均值;
步骤S5:将所有均值作为K-均值聚类算法的初始点,运行聚类算法,将获得的簇中心作为选取的目标采样点。
2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:
步骤S1.1:判断给定数据集的维度是高维或者低维,如果是低维,则将给定数据集的维度作为目标维度,如果是高维,则采用基于主成分分析法确定给定数据集的目标维度;
步骤S1.2:将数据集的维度设置为目标维度,获得新的数据集。
3.如权利要求2所述的方法,其特征在于,步骤S1.1中采用基于主成分分析法确定给定数据集的目标维度,包括:
计算给定数据集D的协方差矩阵;
计算协方差矩阵的特征值ei,{ei|1≤i≤d},其中,特征值用以表征数据集中各主成分的重要程度;
根据特征值的均值以及每组特征值的方差,寻找阈值τ将特征值划分为两组,具体通过最大化下述公式来实现:
其中,μ1和μ2表示在阈值τ下每组的均值,s12和s22表示在阈值τ下每组组内特征值的方差,
将包含较大特征值的组内特征值的数量作为给定数据集的目标维度cp,cp的值为包含较大特征值的组内特征值的数量。
4.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:将n个数据样本{x1,x2,…,xn}建立为有w个不相交箱的直方图,,构建如下目标函数:
其中,vt表示第t(1≤t≤w)个箱中样本的数量,h表示带宽;
步骤S2.2:通过最小化目标函数,计算目标维度的每一个维度上的最优宽带。
5.如权利要求1所述的方法,其特征在于,步骤S3中的网格,将D*数据集分成个格,其中,表示D*中维度i上数据分布的范围,cp表示目标维度。
6.如权利要求2所述的方法,其特征在于,当给定数据集的维度小于预设维度值时,则判定该数据集为低维,否则为高维。
7.如权利要求2所述的方法,其特征在于,预设比例为75%~95%。
8.一种数据采样装置,其特征在于,包括:
目标维度确定模块,用于确定给定数据集的目标维度,获得以目标维度为维度的新的数据集;
最优宽带计算模块,用于计算新的数据集的每一个维度上的最优宽带;
网格划分模块,用于根据计算出的最优宽带在每一个维度上采用直方图密度估计方法划分格子,组成网格,非空格中包含数据样本;
非空格筛选模块,用于从网格中筛选出具有最高样本数的预设比例的非空格,并计算每个格中数据样本的均值;
聚类模块,将所有均值作为K-均值聚类算法的初始点,运行聚类算法,将获得的簇中心作为选取的目标采样点。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉万般上品信息技术有限公司,未经武汉万般上品信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910763259.4/1.html,转载请声明来源钻瓜专利网。