[发明专利]一种自然场景图像中字符元素检测方法有效
申请号: | 202110123632.7 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112801092B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 钱鹰;史旭鹏;刘歆;姜美兰 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06V30/18 | 分类号: | G06V30/18;G06V30/10;G06N3/04;G06N3/08 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然 场景 图像 字符 元素 检测 方法 | ||
1.一种自然场景图像中字符元素检测方法,其特征在于:所述方法包括以下步骤:
S1:首先图像通过最大池化操作进行目标的非极大抑制,随后通过特征提取网络对非极大抑制后的特征图进行进一步特征提取;
S2:特征整合网络,对特征提取网络中的顶层特征与底层特征进行整合输出;
S3:推测网络,以特征整合网络输出的特征图为基础进行推断,输出目标的目标位置框左上角坐标点推测值和类别判断、坐标点偏移推测值和目标长宽的推测值;通过整合推测值生成字符检测结果,并且根据每一类推测值的特点设计损失函数对网络进行训练;
所述S2具体为:
特征整合网络由特征组合单元组成,组合单元包括:上采样层,用于将特征图尺寸放大;卷积层,对上采样输出特征图进行维度调整;组合层,将输入的一组特征图与经卷积层处理的特征图进行组合并输出;BatchNormalization层加快训练速度并且使网络更加稳定;BatchNormalization层输出的特征图经过卷积层进行处理,进行信息提取与维度调整,卷积层输出的特征图输入到激活层进行激活,最后输出整合结果;
根据原图像的尺寸设置特征融合次数的阈值,确保特征整合网络的输出具有高分辨率;在对图像进行特征提取的过程中,每经过一组特征提取块的特征提取后,首先将处理结果输出至下一组特征提取块进行特征提取,其次保存该处理结果用于后续特征融合;
最后一层特征提取块输出结果后,将该结果与上一层特征提取块的特征图通过特征组合单元进行特征组合,记为整合一次;整合的结果再与上一层特征提取块的输出进行下一次整合,直至达到设定的阈值;
所述S3具体为:
将特征整合网络的最终输出结果经过两层卷积进行最终的特征提取和整合,输出网络预测结果;预测结果包括:通道特征图用于字符目标位置框左上角坐标点预测与类别判定、通道特征图用于字符的目标位置框左上角坐标点偏移值计算、通道特征图用于字符目标的长与宽;
损失函数包含三个部分:字符目标位置框左上角坐标点预测与类别判定的损失函数;目标位置框左上角坐标点预测偏移值的预测损失函数;目标位置框长宽值预测损失函数;
第一部分,字符目标位置框左上角坐标点预测与类别判定损失计算过程中,以推测网络输出的字符目标位置框左上角坐标点预测与类别判定特征图为基础,特征图每一个像素对应原图的一个区域,如果预测结果显示文字目标位置框左上角坐标点在该区域中,特征图上的该点预测值为1,这个特征点附近的其它特征点中该种类对应的值按照高斯分布不断下降;损失计算以二分类交叉熵损失为基础,为保证正负样本不均衡时损失函数的有效性,当真实样本为正时,损失函数乘以当真实样本为负样本时损失函数乘以损失函数乘以其中为预测值,Yxyc为训练集生成的真实值,αβ为经验值;
第二部分,目标位置框左上角坐标点偏移值预测损失计算过程中,以推测网络输出的目标位置框左上角坐标点偏移值预测结果特征图为基础,由于目标位置框左上角坐标点预测的特征图上判定的目标位置框左上角坐标点实际上对应原图的一块区域,具体的目标位置框左上角坐标点位置还需要有一个偏置值来进行计算,偏置值预测的损失计算公式为其中N代表目标总数,R代表原图到特征图下采样倍数,而代表实际的偏差值,代表预测的偏差值;
第三部分,目标长宽值预测损失记为Lsize,以推测网络输出的目标长宽值预测特征图为基础,特征图中的值为当前特征点对应目标的长宽的预测值,损失值计算公式预测值与实际值差值的平方和除以检测目标总数得到的值;
最后总的损失表达式为Ldet=Lk+λsizeLsize+λsizeLoffset,与λsize,λoffset为权重。
2.根据权利要求1所述的一种自然场景图像中字符元素检测方法,其特征在于:所述S1具体为:
原始图像首先通过卷积层、BatchNormalization层、激活层和最大池化层组合成的非极大抑制模块以实现目标的非极大抑制;
根据原始图像的尺寸设计特征提取网络,特征提取网络基本结构由卷积层、BatchNormalization层和激活层组成的特征提取块,特征提取网络输入为经过非极大抑制的特征图,每经过一层特征提取块的处理,输出的特征图尺寸较输入时都会下降,特征提取网络中包含的特征提取块数量由原始图像尺寸决定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110123632.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:360°贴地贴墙仪
- 下一篇:比例换向阀的阀芯结构
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序