[发明专利]场景文字检测方法有效
申请号: | 201910567794.2 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110263877B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 张勇东;王裕鑫;谢洪涛;李岩 | 申请(专利权)人: | 中国科学技术大学;北京中科研究院 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/166;G06V30/19 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景 文字 检测 方法 | ||
1.一种场景文字检测方法,其特征在于,包括:
利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;
以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;
将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活;
对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果;
其中,所述将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸包括:通过通道匹配层改变输入特征图的通道数到指定大小;由尺寸映射层通过压缩特征图的通道数实现尺寸的扩大,从而将输入特征图的尺寸映射为最大尺寸的特征图相同的尺寸;
所述将映射到相同尺寸的特征图进行不同尺度信息的融合包括:通过两个方向的连续卷积操作对包含不同尺度信息的特征图进行叠加;同时运用注意力机制控制前层的尺度信息的传递;再通过特征聚合操作将叠加结果与注意力机制操作结果聚合。
2.根据权利要求1所述的一种场景文字检测方法,其特征在于,通过连续的上采样模块对提取的特征图进行上采样操作;在上采样过程中,将当前的特征图和相同尺寸的浅层特征图进行级联操作。
3.根据权利要求1所述的一种场景文字检测方法,其特征在于,在训练阶段,采用随机梯度下降法进行端到端的训练,整体损失函数为:
L=Lcls+λregLreg
上式中,Lcls为分类损失,Lreg为回归损失,λreg为平衡参数。
4.根据权利要求3所述的一种场景文字检测方法,其特征在于,
分类损失Lcls表示为:
Lcls=λRRL+λDLDice
IoU=S∩G/S∪G
回归损失Lreg表示为:
Lreg=Lloc+Lθ
Lθ=1-cos(θ′-θ*)
其中,RL代表召回损失,LDice代表交并比损失,λR与λD均代表平衡参数,η1、η2代表平衡参数,p代表预测当前像素为文字的概率大小,y代表当前像素对应的标签,S代表预测的单通道文字评分图中的每个连通域,IoU代表交集比上并集的值,β表示阈值,α表示增加的权重,e为常数;P代表预测的文字框,G代表对应的标签文字框,θ′代表预测的角度,θ*代表真实角度,Lθ代表角度的损失。
5.根据权利要求1所述的一种场景文字检测方法,其特征在于,在测试阶段,在得到场景文字检测结果后加入非极大化抑制操作,对重复检测的文字框进行筛选,得到最终的检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;北京中科研究院,未经中国科学技术大学;北京中科研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910567794.2/1.html,转载请声明来源钻瓜专利网。