[发明专利]确定训练样本的方法及装置、训练深度学习模型的方法有效
申请号: | 202010904622.2 | 申请日: | 2020-09-01 |
公开(公告)号: | CN112036491A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 张荣国;李新阳;王少康;陈宽 | 申请(专利权)人: | 北京推想科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06K9/34;G06N20/00 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 秦卫中 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 训练 样本 方法 装置 深度 学习 模型 | ||
本发明提供了一种确定训练样本的方法及装置、训练深度学习模型的方法。确定训练样本的方法包括:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。通过根据N个待标注样本的特征向量之间的差异性选取待标注样本,能够更有效率地从待标注样本集中筛选样本进行标注,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。
技术领域
本发明涉及深度学习技术领域,具体涉及一种确定训练样本的方法及装置、训练深度学习模型的方法。
背景技术
近年来,深度学习技术已经改变了计算机视觉,并且已经在大量面向消费者的产品中得到了应用。例如,在医学影像领域,医学图像的分割对精度要求很高,得益于深度学习技术的发展,取得了超越传统分割方法的优异效果,对于临床的分析、诊断、治疗及预后具有重要的意义。
但是,一种有效的深度学习模型,通常需要大量的高质量的标注好的训练样本,标记工作量大。而且,训练样本的标注是一项非常耗时耗力的工作,例如,分割标注任务需要人工勾画目标的边缘轮廓,医学影像的标注更需要有相应的临床知识才能标记准确,标注成本较高。
发明内容
有鉴于此,本发明实施例提供了一种确定训练样本的方法及装置、训练深度学习模型的方法,能够更有效率地确定待标注样本,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。
根据本发明实施例的第一方面,提供一种确定训练样本的方法,包括:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。
在本发明的一个实施例中,标注样本集包括第一标注样本集,上述根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,包括:将第一待标注样本集中的第一样本分别与其余每个待标注样本进行特征相似度计算,获得第一相似度结果,其中,第一样本为第一待标注样本集中的任意一个待标注样本;根据第一相似度结果,从第一待标注样本集中确定与第一样本存在最大差异的至少一个第一训练样本,以对至少一个第一训练样本进行标注,获得第一标注样本集。
在本发明的一个实施例中,标注样本集包括第一标注样本集和标注样本集,上述根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,还包括:根据至少一个第一训练样本,得到第二待标注样本集,其中第二待标注样本集包括第一待标注样本集中除至少一个第一训练样本之外的待标注样本;根据特征向量,分别将第二待标注样本集中的每个待标注样本分别与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果;根据第二相似度结果,从第二待标注样本集中确定与第一标注样本集存在最大差异的至少一个第二训练样本,以对至少一个第二训练样本进行标注,获得第二标注样本集。
在本发明的一个实施例中,特征相似度计算包括特征距离计算,上述分别将第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果,包括:分别计算第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本的特征距离之和,获得第二相似度结果。
在本发明的一个实施例中,上述确定训练样本的方法还包括:根据M个训练样本中的每个训练样本的标识符,对M个训练样本进行去重处理,其中,上述对M个待标注样本进行标注,获得标注样本集,包括:对去重后的训练样本进行标注,获得标注样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京推想科技有限公司,未经北京推想科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010904622.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:相机增益的调整方法和装置、扫描系统
- 下一篇:井间定位信号频率估计方法