[发明专利]一种基于选择性注意力机制的任意形状文本识别方法在审
申请号: | 202010807024.3 | 申请日: | 2020-08-12 |
公开(公告)号: | CN111950453A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 王勇;朱军民;曹羽 | 申请(专利权)人: | 北京易道博识科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 100083 北京市海淀区农大南路1号院2号楼7层办公A-7*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 选择性 注意力 机制 任意 形状 文本 识别 方法 | ||
本发明公开了一种基于选择性注意力机制的任意形状文本识别方法,属于计算机视觉领域。该方法包括:输入原始文本图像,对原始文本图像进行预处理,得到原始文本图像的样本集;通过融入通道Attention模块的Backbone CNN对预处理后的原始图像的特征进行编码并输出基本特征编码特征图;针对基本特征编码特征图分别进行文本图像特征编码和文本区域Mask特征编码,并进行双向特征加权融合;通过选择性注意力机制解码融合特征图;输出识别的文本信息。本发明技术方案创新性地提出选择性注意力机制,将文本图像特征的提取和序列化转录的任务集成在一个神经网络之中,大大提升了任意形状文字识别的精度。
技术领域
本发明涉及计算机视觉领域,尤其是一种基于深度学习和选择性注意力机制的任意形状文本识别方法。
背景技术
当前,文字识别方法可以划分为两类,一类是基于传统技术的方法,另一类则是基于深度学习的方法。传统的方法通常采用一种自底向上的处理策略,首先识别出单个字符信息,然后将多个字符组合成文本行。近些年,深度学习技术有了快速的发展,并成功地应用到文字识别任务。这一类方法一般在一个统一的框架中完成图像特征提取和序列化转录的工作,通常依赖于端到端可训练的深度神经网络和大规模的样本集。相比于传统的方法,深度学习方法能够取得更好的识别性能。
主流深度学习文字识别算法通常基于Encoder-Decoder的架构,并结合CTC(Connectionist Temporal Classification)或者注意力(Attention)机制完成序列化转录的工作。由于受限于单一方向的特征切片形式,基于CTC的方法通常无法很好的识别多方向或者任意形状的文字。Attention机制很早就被应用到深度学习领域,如计算机视觉中基于递归注意力机制的增强学习,以及Seq2Seq模型中用于解决背景或上下文对齐的问题。本质上,Attention机制允许模型自动的软搜索与预测目标最相关的特征部分,以此作为解码器当前时刻输入的一部分,从而大幅度提升预测精度。这样的模型天然具备学习视觉特征和词向量之间对齐关系的能力,这也正是OCR任务中序列化转录需要完成的任务。由于Attention机制对于特征切片的方向没有限制,原则上能够识别任意形状的文字。
尽管Attention的方法很大程度上提升了文字识别精度,甚至对于比较难的任意形状文字也有不错的识别性能,但是不得不承认,特定类型的文字识别仍然具有很大的挑战性,如文档图片中的经常出现的印章文字,以及自然场景中任意形状的场景文字等。这一方面由于图片本身的原因造成,如图像分辨率低、模糊、或不均匀光照等,另一方面则来自于文字本身的多样性,如不同的大小、字体、颜色、方向、变换视角以及复杂背景等。如下图是一些典型的具有挑战性的文字样本。另外,尽管Attention机制有强大的对齐输入特征和目标对象的能力,但是由于模型训练时缺乏显示的制约条件,即类似于一种弱监督的学习方式,通常会面临Attention Drift(注意力漂移)的问题,即预测目标与相关联的注意力区域之间出现偏差的现象。
发明内容
本发明涉及一种基于深度学习和选择性注意力机制的任意形状文本识别方法。通过有选择性的二维空间软注意力机制,以自动软搜索的方式获取目标字符相关的特征信息,完成视觉特征与目标字符词向量之间的对齐,较好地解决了Attention模型中普遍存在的注意力漂移(Attention Drift)问题,从而在具有挑战性的任意形状文字识别任务上取得不错的效果。
根据本发明的第一方面,提供一种基于选择性注意力机制的任意形状文本识别方法,所述方法包括:
步骤1:输入原始文本图像,对原始文本图像进行预处理,得到原始文本图像的样本集;
步骤2:通过融入通道注意力机制(Attention)模块的残差骨干卷积神经网络(Backbone CNN)对预处理后的原始图像的基本特征进行编码并输出编码特征图,得到基本图像特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易道博识科技有限公司,未经北京易道博识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010807024.3/2.html,转载请声明来源钻瓜专利网。