[发明专利]难样本挖掘方法、装置、电子设备及计算机可读存储介质有效
申请号: | 201911180004.1 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110956255B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 郭强;陈灿灿;郑闪;孙丰龙;马建辉;邱亭林;杜君;郭蕾 | 申请(专利权)人: | 中国医学科学院肿瘤医院 |
主分类号: | G06N3/084 | 分类号: | G06N3/084;G06N3/048 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 杨奇松 |
地址: | 100021 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 挖掘 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明涉及一种难样本挖掘方法、装置、电子设备及计算机可读存储介质,属于数据挖掘领域。该方法包括:在获得收敛的神经网络模型之后,统计训练集中各样本在网络反向传播过程中的梯度值,然后设定阈值,分别把训练集中样本分类为容易样本、难样本、极难样本三个类别。然后选取适量难样本,将难样本与原训练集融合,得到更新后的训练集。在用于更新训练集所添加的难样本中,已过滤掉极难样本。当把过滤掉极难样本的难样本加入到原训练集时,使得原训练集中的难样本比例增加,极难样本比例降低。当后续基于新的训练集训练神经网络模型时,可以避免神经网络模型对极难样本过度学习,从而得到性能较高的神经网络模型。
技术领域
本申请属于数据挖掘领域,具体涉及一种难样本挖掘方法、装置、电子设备及计算机可读存储介质。
背景技术
神经网络在对数字病理切片进行识别时,可能将正常区域(正常区域对应的小图为阴性小图,阴性小图对应的样本为负样本)以及癌症区域(癌症区域对应的小图为阳性小图,阳性小图对应的样本为正样本)识别错误,这些识别错误的区域对应的小图称之为难样本,反之,位于识别正确的区域对应的小图是容易样本。挑选一定数量的难样本与原来的训练集合并构建新的训练集,这一过程称为难样本挖掘。
难样本的挖掘可以调整训练模型的训练集中难易样本不均衡的问题,从而提高训练出的神经网络模型的识别精度。
现有的难样本挖掘方法统称为二分法,通过一定的手段把训练集中的样本划分为难样本以及容易样本,后续再将得到的难样本与训练集进行融合。后续利用进行融合后的训练集重新训练卷积神经网络模型时,由于难样本中包含大量的极难样本(很容易导致识别错误),会使得后续的训练过程中,卷积神经网络模型对极难样本过度学习。如此,难样本挖掘没有实现其应该实现的效果,挖掘失败。
发明内容
有鉴于此,本申请的目的在于提供一种难样本挖掘方法、装置、电子设备及计算机可读存储介质,基于梯度来实现难样本挖掘,并基于阈值过滤极难样本,可避免卷积神经网络模型对极难样本特征的过度学习,从而实现提高模型性能的目的。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供一种难样本挖掘方法,所述方法包括:计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述训练集训练至收敛;将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集;从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集;其中,所述第一阈值小于所述第二阈值。在用于更新训练集所添加的难样本中,已过滤掉极难样本。当把过滤掉极难样本的难样本加入到原训练集时,使得原训练集中的难样本比例增加,极难样本比例降低。当后续基于新的训练集训练神经网络模型时,可以避免神经网络模型对极难样本过度学习,从而得到性能较高的神经网络模型。
结合第一方面实施例,在一种可能的实施方式中,所述计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,包括:针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院肿瘤医院,未经中国医学科学院肿瘤医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911180004.1/2.html,转载请声明来源钻瓜专利网。