[发明专利]一种训练模型以及字符检测的方法及装置在审
申请号: | 202110392490.4 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113205095A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 白翔;张文庆;邱阳;宋祺;姜仟艺;刘曦;张睿;廖明辉;魏晓林 | 申请(专利权)人: | 北京三快在线科技有限公司;华中科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 模型 以及 字符 检测 方法 装置 | ||
1.一种训练字符检测模型的方法,其特征在于,包括:
从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;
将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;
根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
2.如权利要求1所述的方法,其特征在于,该训练样本的第一标签还包括该训练样本对应的图像中各包围框内字符的类型;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度。
3.如权利要求2所述的方法,其特征在于,根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
确定得到的各预测包围框的几何位置特征以及各预测包围框内的图像在各预测类型维度上预测结果的置信度,并确定该训练样本的第一标签中各包围框的几何位置特征以及各包围框内的字符所属类型的特征值;
针对每个预测包围框,根据该预测包围框的几何位置特征与该训练样本的第一标签中与该预测包围框对应的包围框的几何位置特征间的差异,确定该预测包围框的回归损失;
根据该训练样本的第一标签中与该预测包围框对应的包围框所属类型的特征值,以及该预测包围框内的图像在各预测类型维度上预测结果的置信度,确定该预测包围框的分类损失;
根据各预测包围框的回归损失以及各预测包围框的分类损失确定第一损失。
4.如权利要求2所述的方法,其特征在于,所述几何特征检测网络包括区域检测网络和区域矫正网络;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述区域检测网络,确定输出的各字符分别对应的各初始预测包围框;
针对每个字符,根据该字符对应的各初始预测包围框,对各初始预测包围框包围的区域进行特征采样,确定该字符对应的若干特征矩阵;
根据得到的该字符对应的若干特征矩阵,通过所述区域矫正网络,确定各初始预测包围框的位置偏移特征,根据各初始预测包围框的位置偏移特征,对各初始预测包围框进行矫正,确定该训练样本中该字符的预测包围框。
5.如权利要求4所述的方法,其特征在于,根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
针对所述区域检测网络输出的每个初始预测包围框,根据该初始预测包围框的几何位置特征,确定所述第一标签中与该初始预测包围框对应的包围框;
根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失;
根据各第一回归损失以及各第二回归损失,确定第一损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司;华中科技大学,未经北京三快在线科技有限公司;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110392490.4/1.html,转载请声明来源钻瓜专利网。