[发明专利]针对缺失标注的病理图像的高精度检测网络训练方法有效
申请号: | 202010373046.3 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111626989B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 李涵生;韩鑫;亢宇鑫;崔磊;杨林 | 申请(专利权)人: | 杭州迪英加科技有限公司 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06N3/08 |
代理公司: | 北京博维知识产权代理事务所(特殊普通合伙) 11486 | 代理人: | 张倩 |
地址: | 311121 浙江省杭州市余杭区仓前街道*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 缺失 标注 病理 图像 高精度 检测 网络 训练 方法 | ||
本发明涉及针对缺失标注的病理图像的高精度检测网络训练方法,包括:获取带有部分手工标注信息的病理图像作为训练样本;将所述训练样本输入目标检测模型,通过所述目标检测模型检测出所述训练样本上可能存在检测目标的位置,用回归框标示出所述可能存在检测目标的位置;计算每个回归框的原始损失;计算每个回归框的回归框能量;根据所述回归框能量对对应回归框的原始损失进行校准;计算校准后所述目标检测模型的损失函数,采用梯度下降法更新所述目标检测模型中的参数,采用更新后的参数对所述网络进行训练。经过偏差校准的目标检测模型的召回率结果和平均精度结果都有了明显的改善和提高。
技术领域
本发明涉及神经网络训练技术领域,特别是涉及针对缺失标注的病理图像的高精度检测网络训练方法。
背景技术
目标检测即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。在现有的目标检测模型中,性能表现最好的几个模型都属于完全监督模型,完全监督模型必须确保每张训练图像中所出现的待检测类别的所有目标,都必须被标注,这样的标注方式称为穷尽标注。如果训练数据中存在大量的缺失标注(某些图像中的部分待检测目标未被标注出来),将导致模型性能受到很大影响。
病理图像的背景极度复杂,异常细胞与组织经常会分布在密集的不同形态的正常组织细胞、微生物以及异物之中,即使是经验丰富的病理科医生也难以定位出一个视野下的所有异常组织细胞。此外,病理医生的空余标注时间极其有限,面对用于进行深度学习所需的大量标注数据,难以保证标注的高质量。因此,对病理图像的训练数据进行穷尽标注基本是不可能的。而这也进一步造成,在目前现有的病理图像数据集上训练得到的目标检测模型性能受到极大限制。因此,如何使得在仅有的非穷尽标注数据集下,对目标检测模型进行充分的训练,是一个挑战。
发明内容
为了解决上述技术问题,提出了本申请。本申请提供了针对缺失标注的病理图像的高精度检测网络训练方法,用于解决非穷尽标注条件下目标检测模型性能受影响的问题。
根据本申请的一个方面,提供了针对缺失标注的病理图像的高精度检测网络训练方法,包括:获取带有部分手工标注信息的病理图像作为训练样本;
将所述训练样本输入目标检测模型,通过所述目标检测模型检测出所述训练样本上可能存在检测目标的位置,用回归框标示出所述可能存在检测目标的位置;
计算每个回归框的原始损失;
计算每个回归框的回归框能量;
根据所述回归框能量对对应回归框的原始损失进行校准;
计算校准后所述目标检测模型的损失函数,采用梯度下降法更新所述目标检测模型中的参数,采用更新后的参数对所述目标检测模型进行训练。
进一步地,在将所述训练样本输入目标检测模型前,先对所述训练样本进行数据预处理:对所述训练样本采用色彩迁移的方法进行数据扩充,再采用主成分分析标准化,使得所述训练样本每个像素的像素值服从标准正态分布。
进一步地,所述回归框能量通过回归框密度转换而来,计算每个回归框与其他回归框之间的平均距离,利用所述平均距离来衡量对应回归框周围的回归框密度,得到回归框密度函数;
所述回归框密度函数为
其中N是回归框的数量,D是曼哈顿街区距离,
和表示由i索引的框的中心点的x坐标和y坐标;
所述回归框能量为
其中表示所有回归框之间的最大距离,所述回归框能量值域为0到1。
进一步地,所述原始损失包括定位损失和分类损失:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州迪英加科技有限公司,未经杭州迪英加科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010373046.3/2.html,转载请声明来源钻瓜专利网。