[发明专利]训练集构建方法、装置、电子设备及计算机可读存储介质在审
申请号: | 201911344538.3 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111144473A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 邱亭林;孙丰龙;郑闪;陈灿灿;马建辉;杜君;郭蕾;郭强 | 申请(专利权)人: | 中国医学科学院肿瘤医院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 蒋姗 |
地址: | 100021 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 构建 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明涉及一种训练集构建方法、装置、电子设备及计算机可读存储介质,属于数据挖掘领域。该方法包括:构建多个训练集,每构建一个训练集时,计算与当前训练集对应的转移矩阵以及状态序列。后续判断是否满足迭代停止条件;在满足时从已构建的训练集中确定最优训练集;否则继续构建下一个训练集。在上述过程中,通过计算状态序列、转移矩阵,能够清晰地表征出当前所有收敛的神经网络模型对数字病理切片的识别准确率的差异性,然后基于当前得到的状态序列、转移矩阵进行蒙特卡洛重采样更新训练集时,更能拟合总训练集中样本数据的统计分布信息,因此,可以得到尽可能多地表征全部数字病理切片的特征的最优训练集。
技术领域
本申请属于数据挖掘领域,具体涉及一种训练集构建方法、装置、电子设备及计算机可读存储介质。
背景技术
随着以卷积神经网络为代表的深度学习技术的不断成熟,数字病理图像识别已成为计算机视觉的一个重要研究方向。受当前的硬件条件和模型容量限制,数字病理图像不适合直接作为深度学习模型训练集。在实际操作过程中,一般将特定放大倍数的数字病理切片切割成固定尺寸的小图后,以一定数量的小图作为深度学习模型的训练集。其中,在对数字病理切片中有癌区域进行切割后得到的小图为阳性小图,在对数字病理切片中无癌的正常区域进行切割后得到的小图为阴性小图。
在现有技术中,当需要构建训练集时,一般从数字病理切片切割后得到的小图集合中随机选取10万阳性小图和30万阴性小图构建正负样本为1:3的训练集(阳性小图为正样本,阴性小图为负样本),并以此训练集对深度学习分类模型进行训练。
在上述构建训练集的过程中,由于单次构建训练集存在随机性,且单次构建的训练集中的正负样本难以代表所有数字病理切片的有癌区域和正常区域,因此,使得深度学习分类模型难以充分学习到数字病理切片中的数据特征,从而导致模型性能较低。
发明内容
有鉴于此,本申请的目的在于提供一种训练集构建方法、装置、电子设备及计算机可读存储介质,使得最后得到的最优训练集能够尽可能多地表征全部数字病理切片的特征,以便后续可以通过该最优训练集训练得到高性能深度学习分类模型。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供一种训练集构建方法,所述方法包括:依次构建多个训练集,每构建一个训练集时,计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列;判断是否满足迭代停止条件;在满足时,从已构建的训练集中确定出最优训练集;在不满足时,在所述当前训练集的基础上构建下一个训练集;其中,第一个训练集及第二个训练集从总训练集中随机采样得到,其余训练集基于前一个训练集的状态序列及转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到。在上述过程中,通过计算状态序列、转移矩阵,能够清晰地表征出当前所有收敛的神经网络模型对数字病理切片的识别准确率的差异性,然后基于当前得到的状态序列、转移矩阵进行蒙特卡洛重采样更新训练集时,更能拟合总训练集中样本数据的统计分布信息,因此,可以得到尽可能多地表征全部数字病理切片的特征的最优训练集。
结合第一方面实施例,在一种可能的实施方式中,所述计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列,包括:计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述当前训练集训练至收敛;将所述总训练集中的每个样本的梯度值离散化,得到所述总训练集中的样本对应于所述当前训练集的状态序列;根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列,确定所述当前训练集的转移矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院肿瘤医院,未经中国医学科学院肿瘤医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911344538.3/2.html,转载请声明来源钻瓜专利网。