[发明专利]样本评估方法、装置、设备及计算机可读存储介质有效
申请号: | 202111096572.0 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113554126B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 冯建设;张建宇;花霖;刘桂芬;陈军;王春洲;朱瑜鑫;赵一波;刘小双;成建洪;熊皓 | 申请(专利权)人: | 深圳市信润富联数字科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 晏波 |
地址: | 518000 广东省深圳市罗湖区桂园街道老围*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 评估 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明公开了一种样本评估方法、装置、设备及计算机可读存储介质,该方法包括:基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。本发明通过检测样本集合预设核函数和预设重构度测试函数,计算得到可以衡量待检测样本是否为高价值样本的新颖度和可重构度,有效筛选出高价值样本,减少低价值的相似性样本的采集。
技术领域
本发明涉及数据处理领域,尤其涉及样本评估方法、装置、设备及计算机可读存储介质。
背景技术
在模型训练阶段,样本集合对模型训练的效果来说至关重要,若模型集合中存在一定量的相似性样本,则会导致样本的不平衡度增高,从而致使模型训练的效率降低,因此,如何降低相似性样本的采集量便成为了亟待解决的技术问题,而现有的样本采集方法包括随机采样、周期性采样、基于规则采样、主动采样以及移动窗采样等,这些方法都无法有效降低采集到的相似性样本的数量。
发明内容
本发明的主要目的在于提供一种样本评估方法、装置、设备及计算机可读存储介质,旨在解决现有技术方案无法通过降低相似性样本的采集数量而提高模型训练效率的技术问题。
此外,为实现上述目的,本发明还提供一种样本评估方法,所述样本评估方法包括以下步骤:
基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;
从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。
可选地,所述基于预设核函数和所述目标样本,计算所述待检测样本的新颖度的步骤包括:
将所述待检测样本和所述目标样本输入预设核函数,得到新颖度;
更换所述目标样本,并循环所述将所述待检测样本和所述目标样本输入预设核函数,得到新颖度的步骤,得到多个新颖度;
将所述多个新颖度中的极值作为所述待检测样本的新颖度。
可选地,所述基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度的步骤包括:
将所述待检测样本和所述目标样本输入包含预设测试模型的预设重构度测试函数,得到所述待检测样本的可重构度。
可选地,所述基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度的步骤之后,包括:
基于第一预设检验函数、第二预设检验函数和所述检测样本集合,确定新颖度上限值和可重构度上限值;
若所述待检测样本的新颖度大于所述新颖度上限值,且所述待检测样本的可重构度大于所述可重构度上限值,则执行所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤。
可选地,所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤包括:
基于所述待检测样本的新颖度和可重构度,计算所述待检测样本的样本价值度;
若所述样本价值度大于第一预设阈值,则确定所述待检测样本是高价值样本;
若所述样本价值度小于或等于第一预设阈值,则确定所述待检测样本不是高价值样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市信润富联数字科技有限公司,未经深圳市信润富联数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111096572.0/2.html,转载请声明来源钻瓜专利网。