[发明专利]样本获取方法、装置、电子设备及可读存储介质有效
申请号: | 201910171163.9 | 申请日: | 2019-03-07 |
公开(公告)号: | CN109961094B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 张志伟 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;丁芸 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例提供了一种样本获取方法、装置、电子设备及可读存储介质,应用于互联网技术领域,所述方法包括:根据预先建立的标签树,确定预设标签在标签树中的层级,标签树是对训练集中每个数据携带的标签进行分类得到的;按照标签树从上到下的顺序,对样本集进行逐层筛选,使每一层的筛选结果作为下一层筛选的数据源,直至筛选的层级为预设标签在标签树中的层级;在每一层筛选时,计算该层对应的训练数据的平均特征,根据平均特征在该层数据源中选取预设比例的数据,将预设比例的数据作为筛选结果;获取预设标签在标签树中的层级对应的筛选结果。本申请实施例可提高样本获取的准确性。 | ||
搜索关键词: | 样本 获取 方法 装置 电子设备 可读 存储 介质 | ||
【主权项】:
1.一种样本获取方法,其特征在于,所述方法包括:根据预先建立的标签树,确定预设标签在所述标签树中的层级,所述标签树是对训练集中每个数据携带的标签进行分类得到的;按照所述标签树从上到下的顺序,对样本集进行逐层筛选,使每一层的筛选结果作为下一层筛选的数据源,直至筛选的层级为所述预设标签在所述标签树中的层级;在每一层筛选时,计算该层对应的训练数据的平均特征,根据所述平均特征在该层数据源中选取预设比例的数据,将所述预设比例的数据作为筛选结果,每层对应的训练数据是所述训练集中属于该层标签的数据;获取所述预设标签在所述标签树中的层级对应的筛选结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910171163.9/,转载请声明来源钻瓜专利网。