[发明专利]多语言文本检测识别系统有效
申请号: | 201910232853.0 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109948615B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 张勇东;周宇;谢洪涛;李岩 | 申请(专利权)人: | 中国科学技术大学;北京中科研究院 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06F40/58;G06N3/04 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 文本 检测 识别 系统 | ||
1.一种多语言文本检测识别系统,其特征在于,包括:
文本检测器,用于在输入图像中生成一系列的文本候选框;所述文本检测器由4个针对文本而设计的inception模块和3个channel-wise attention与spatial attention模块以及7个卷积层堆叠而成;其中,channel-wise attention是针对特征图的通道而言,输出各通道的重要性级别;spatial attention是针对特征图的每个像素而言,输出包含文本的位置区域;文本检测器的工作流程如下:输入图像,依次经过四个卷积层、第一个inception模块、第一个channel-wise attention与spatial attention模块、第五个卷积层、第二个inception模块、第二个channel-wise attention与spatial attention模块、第六个卷积层、第三个channel-wise attention与spatial attention模块、以及第七个卷积层,得到特征图f1,然后,经过上采样后与第三个channel-wise attention与spatial attention模块输出的特征图f2相加进行特征融合,得到的特征图经过上采样之后再与第二个channel-wise attention与spatial attention模块输出的特征图f3相加进行特征融合,这里得到的特征图再经过第三个inception模块以及上采样后与第一个channel-wise attention与spatial attention模块输出的特征图f4相加进行特征融合,再经过inception4进行特征提取,其中,利用第三个inception模块与第四个inception模块的输出进行文本候选框的预测,也即生成文本候选框;
归一化单元,用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K;
脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;所述脚本识别网络包括:多个交替设置的卷积层和最大池化层、位于最后一个最大池化层后端的全局平均池化层,以及位于全局平均池化层后端的全连接层;所述全连接层具有多个神经元,每一神经元的softmax输出分别代表每一个文本候选框中的文本属于某个语言类型与符号的概率,概率最高的即为文本候选框中文本的类别;
基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别;所述基于注意力机制的多语言文本识别网络使用CNN作为编码器,然后使用CTC解码器来生成字符序列;基于注意力机制的多语言文本识别网络使用channel-wiseattention和spatial attention级联来使CTC解码器更关注有文本的地方。
2.根据权利要求1所述的一种多语言文本检测识别系统,其特征在于,文本检测器对于每个点输出P个带有方向的文本候选框,然后使用非极大值抑制对这些文本候选框进行处理,得到M个带有方向的文本候选框。
3.根据权利要求1所述的一种多语言文本检测识别系统,其特征在于,所述归一化单元按照如下公式在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K:
H'=K
W'=wH'/h
其中,W'、H'分别表示归一化调整后的文本候选框的宽度、高度;w、h分别表示文本候选框的原有的宽度、高度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;北京中科研究院,未经中国科学技术大学;北京中科研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910232853.0/1.html,转载请声明来源钻瓜专利网。