首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种数据采样方法及装置在审

申请号：	201910763259.4	申请日：	2019-08-19
公开（公告）号：	CN110580498A	公开（公告）日：	2019-12-17
发明（设计）人：	彭亚楠;李宗鹏;黄浩	申请（专利权）人：	武汉万般上品信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	42222 武汉科皓知识产权代理事务所(特殊普通合伙)	代理人：	罗飞
地址：	430073 湖北省武汉市东湖新技术开***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据集网格维度数据样本直方图聚类带宽空格均值聚类算法数据预处理采样结果采样效果分布形状计算效率密度估计数据采样原始数据采样点初始点样本数格子预设分解返回
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据采样方法，其特征在于，包括：

步骤S1：确定给定数据集的目标维度，获得以目标维度为维度的新的数据集；

步骤S2：计算新的数据集的每一个维度上的最优宽带；

步骤S3：根据计算出的最优宽带在每一个维度上采用直方图密度估计方法划分格子，组成网格，其中，网格中的非空格中包含数据样本；

步骤S4：从网格中筛选出具有最高样本数的预设比例的非空格，并计算每个格中数据样本的均值；

步骤S5：将所有均值作为K-均值聚类算法的初始点，运行聚类算法，将获得的簇中心作为选取的目标采样点。

2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：

步骤S1.1：判断给定数据集的维度是高维或者低维，如果是低维，则将给定数据集的维度作为目标维度，如果是高维，则采用基于主成分分析法确定给定数据集的目标维度；

步骤S1.2：将数据集的维度设置为目标维度，获得新的数据集。

3.如权利要求2所述的方法，其特征在于，步骤S1.1中采用基于主成分分析法确定给定数据集的目标维度，包括：

计算给定数据集D的协方差矩阵；

计算协方差矩阵的特征值e_i，{e_i|1≤i≤d}，其中，特征值用以表征数据集中各主成分的重要程度；

根据特征值的均值以及每组特征值的方差，寻找阈值τ将特征值划分为两组，具体通过最大化下述公式来实现：

其中，μ₁和μ₂表示在阈值τ下每组的均值，s₁²和s₂²表示在阈值τ下每组组内特征值的方差，

将包含较大特征值的组内特征值的数量作为给定数据集的目标维度c_p，c_p的值为包含较大特征值的组内特征值的数量。

4.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

步骤S2.1：将n个数据样本{x₁，x₂，…，x_n}建立为有w个不相交箱的直方图，，构建如下目标函数：

其中，v_t表示第t(1≤t≤w)个箱中样本的数量，h表示带宽；

步骤S2.2：通过最小化目标函数，计算目标维度的每一个维度上的最优宽带。

5.如权利要求1所述的方法，其特征在于，步骤S3中的网格，将D*数据集分成个格，其中，表示D*中维度i上数据分布的范围，c_p表示目标维度。

6.如权利要求2所述的方法，其特征在于，当给定数据集的维度小于预设维度值时，则判定该数据集为低维，否则为高维。

7.如权利要求2所述的方法，其特征在于，预设比例为75％～95％。

8.一种数据采样装置，其特征在于，包括：

目标维度确定模块，用于确定给定数据集的目标维度，获得以目标维度为维度的新的数据集；

最优宽带计算模块，用于计算新的数据集的每一个维度上的最优宽带；

网格划分模块，用于根据计算出的最优宽带在每一个维度上采用直方图密度估计方法划分格子，组成网格，非空格中包含数据样本；

非空格筛选模块，用于从网格中筛选出具有最高样本数的预设比例的非空格，并计算每个格中数据样本的均值；

聚类模块，将所有均值作为K-均值聚类算法的初始点，运行聚类算法，将获得的簇中心作为选取的目标采样点。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉万般上品信息技术有限公司，未经武汉万般上品信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910763259.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于旋转不变性的空间场景匹配方法
下一篇：基于众包重复标签的深度学习目标检测方法及系统

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top