[发明专利]样本获取方法、装置、电子设备及可读存储介质有效
申请号: | 201910171163.9 | 申请日: | 2019-03-07 |
公开(公告)号: | CN109961094B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 张志伟 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;丁芸 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 获取 方法 装置 电子设备 可读 存储 介质 | ||
1.一种样本获取方法,其特征在于,所述方法包括:
根据预先建立的标签树,确定预设图像分类标签在所述标签树中的层级,所述标签树是对图像数据训练集中每个图像数据携带的图像分类标签进行分类得到的;
按照所述标签树从上到下的顺序,对图像数据样本集进行逐层筛选,使每一层的筛选结果作为下一层筛选的数据源,直至筛选的层级为所述预设图像分类标签在所述标签树中的层级;
在每一层筛选时,计算该层对应的图像数据的平均特征,根据所述平均特征在该层数据源中选取预设比例的图像数据,将所述预设比例的图像数据作为筛选结果,每层对应的图像数据是所述图像数据训练集中属于该层标签的图像数据;
获取所述预设图像分类标签在所述标签树中的层级对应的筛选结果;
其中,所述根据所述平均特征在该层数据源中选取预设比例的图像数据,包括:提取该层数据源中每个图像数据的特征,计算每个图像数据的特征与所述平均特征的距离;对得到的距离按照从小到大的顺序,在该层数据源中选取对应的图像数据,直至在该层数据源中选取的图像数据的比例达到所述预设比例;
所述计算该层对应的图像训练数据的平均特征,包括:将该层对应的图像数据中的每个图像数据进行向量表示,得到每个图像数据的特征向量;求解所述特征向量的平均值,得到该层对应的图像数据的平均特征向量;
所述提取该层数据源中每个图像数据的特征,计算每个图像数据的特征与所述平均特征的距离,包括:对该层数据源中的每个图像数据进行向量表示,得到每个图像数据的特征向量;计算每个特征向量与所述平均特征向量的距离。
2.根据权利要求1所述的样本获取方法,其特征在于,所述标签树的建立方法包括:
针对所述图像数据训练集中的每个图像数据,按照该图像数据携带的图像分类标签所属的类别对该图像数据进行层级分类,得到该图像数据的层级标签,且所述层级标签中下一层标签属于上一层标签;
将所述图像数据训练集中所有图像数据的层级标签进行组合,得到所述标签树。
3.根据权利要求1所述的样本获取方法,其特征在于,所述预设比例的确定方法包括:
根据所述图像数据样本集中选取样本的比例和所述预设图像分类标签在所述标签树中的层级,确定所述预设比例,使所述预设图像分类标签在所述标签树中的层级的筛选结果在所述图像数据样本集的比例等于所述图像数据样本集中选取图像样本的比例。
4.根据权利要求3所述的样本获取方法,其特征在于,所述根据所述图像数据样本集中选取样本的比例和所述预设图像分类标签在所述标签树中的层级,确定所述预设比例,包括:
若在所述图像数据样本集中选取图像样本的比例为Percent,所述预设图像数据标签在所述标签树中的层级为Level,根据公式:确定预设比例Q。
5.根据权利要求1所述的样本获取方法,其特征在于,在所述获取所述预设图像数据标签在所述标签树中的层级对应的筛选结果之后,所述方法还包括:
将所述预设图像数据标签在所述标签树中的层级对应的筛选结果添加至所述图像数据训练集中,所述图像数据训练集用于训练进行图像数据分类的神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910171163.9/1.html,转载请声明来源钻瓜专利网。