[发明专利]一种基于边缘注意力引导的越南场景文字检测方法在审
申请号: | 202210628050.9 | 申请日: | 2022-06-06 |
公开(公告)号: | CN114898372A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 文益民;王利兵 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/18;G06V30/19;G06V10/82;G06V10/764;G06T5/30;G06N3/04 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 边缘 注意力 引导 越南 场景 文字 检测 方法 | ||
1.一种基于边缘注意力引导的越南场景文字检测方法,其特征在于,
包括:使用ResNet提取目标的特征信息,并在ResNet中利用感受野残差块RFRB产生丰富的感受野;
使用多路融合特征金字塔网络MF-FPN对特征信息进行融合,得到目标不同层次的特征信息;
将特征信息输入RPN得到一定数量的候选框;
将候选框和特征信息输入RoI Align,经RoI Align后输入分类分支和掩码分支,预测目标的类别信息、边界框信息和掩码信息,并使用Re-Score机制抑制非文字目标,同时利用边缘注意力机制EAM突出目标的边缘。
2.如权利要求1所述的越南场景文字检测方法,其特征在于,
所述利用感受野残差块RFRB产生丰富感受野的具体方式为:先采用1×1卷积调整特征的通道数;然后将膨胀率分别为1、2、3的3个3×3膨胀卷积的输出特征进行concat融合;再使用1×1的卷积调整通道数并进行信息间的交融,进而产生丰富的感受野。
3.如权利要求1所述的越南场景文字检测方法,其特征在于,
所述多路融合特征金字塔网络MF-FPN提取目标不同层次特征信息的具体方式为:将ResNet得到的当前层次的特征输入1×1卷积后得到的输出,由ResNet得到的前一层级的特征进行2×2平均池化得到的输出,对ResNet输出的特征进行自上而下的上采样的输出,三者进行融合后再输入3×3的卷积,进而得到不同层次的特征信息。
4.如权利要求1所述的越南场景文字检测方法,其特征在于,
所述候选框和特征信息经RoI Align后输入分类分支和掩码分支,预测目标的类别信息、边界框信息和掩码信息,具体方式是:
将候选框和特征信息输入RoI Align,将该目标的特征图映射到固定尺寸;
将固定尺寸的特征图输入分类分支,经由Re-Score机制得到精确的类别信息,同时利用边缘分支预测目标的边缘轮廓概率图,并将该图和类别与边界框预测分支的中间特征信息相乘形成边缘注意力EAM,引导模型预测精确的边界框信息;
将固定尺寸的特征图输入掩码分支得到目标的掩码图,同时利用边缘分支预测目标的边缘轮廓概率图,并将该图和掩码预测分支的中间特征信息相乘形成边缘注意力EAM,引导模型预测精确的掩码信息。
5.如权利要求4所述的越南场景文字检测方法,其特征在于,
所述由Re-Score机制得到精确的类别信息的具体步骤为:
将候选框的特征信息输入卷积网络得到目标的视觉类别置信度;
将候选框的特征信息输入序列打分分支得到目标的序列置信度;
将两者分别乘0.5后相加得到最终的类别置信度,选取置信度最高的类别作为目标的类别信息。
6.如权利要求5所述的越南场景文字检测方法,其特征在于,
所述序列打分分支是由一层1×1卷积层、一层Bi-LSTM层、两层全连接层组成,并且是以特征信息的宽度维度利用Bi-LSTM进行序列建模。
7.如权利要求1所述的越南场景文字检测方法,其特征在于,
所述Re-Score机制抑制非文字目标的具体方式为:使用1×1卷积调整固定尺寸的候选框特征信息的通道数;使用Bi-LSTM进行序列特征的提取;使用两层全连接层预测目标的序列得分;使用卷积网络预测目标的视觉分类得分;将两个得分分别与0.5相乘后相加得到最终的类别置信度;以0.7为阈值,将置信度低于阈值的目标剔除。
8.如权利要求1所述的越南场景文字检测方法,其特征在于,
所述利用边缘注意力机制EAM突出目标的边缘的具体方式为:将尺寸固定的特征输入由几层卷积层组成的全卷积网络中,经Sigmoid函数激活后得到目标的边缘信息,在该边缘信息中,属于边缘的像素值大于等于0.5,非边缘像素小于0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210628050.9/1.html,转载请声明来源钻瓜专利网。