[发明专利]一种基于注意力机制的文本识别方法有效
申请号: | 201811355154.7 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109543667B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 李宏伟;李蓉 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06T9/00;G06N3/0442;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于注意力机制的文本识别方法,基于空间注意力的网络SAN是一个端到端的文本识别模型,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构,所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征,从而实现识别图像中的文本。针对于弧形文本CUTE80数据集,本方法的结果优于现有的所有方法,达到77.43%的准确率。在其他场景文本数据集中,本方法也得到了很好的效果。 | ||
搜索关键词: | 一种 基于 注意力 机制 文本 识别 方法 | ||
【主权项】:
1.一种基于注意力机制的文本识别方法,其特征在于:基于空间注意力的网络SAN是一个端到端的文本识别模型,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器;文本识别模型基于编码解码结构,所以文本识别模型也可以理解为编码器和解码器;编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列;解码器用于解码编码器的编码特征,从而实现识别图像中的文本;将编码器视为一个特征提取网络,编码器用于提取图像中的特征;特征提取网络是一个带有非局部神经网络的残差块连接的神经网络;在网络模型中,输入大小为W×H的图像到图像特征提取器中,得到整个图像的特征图,W表示图像的宽,H表示图像的高;然后使用在编码器和解码器之间的注意力机制,在每个时间步关注空间区域中的一部分;最后使用基于LSTM的解码器,预测每个时间步的输出,得到字符序列C={C1,C2,......,CN},N表示字符序列的个数,C1,C2......CN表示序列的各个元素;第一、特征提取网络:(1)非局部神经网络非局部操作是经典的非局部均值操作在计算视觉领域中的一个泛化形式;直观上来说,非局部操作能够将某位置处的特征值计算为输入特征位置的所有位置特征的加权和,如公式(1)所示;
i表示在输入图像X中输出位置的索引,j表示在输入图像X中其余所有位置的索引,y表示和输入图像大小相同的输出特征图;函数f表示计算i和所有j之间的一个标量,函数g计算一个输入特征的表示,C(x)是一个正则化因子;非局部操作时,作为一个灵活的结构,能够和卷积操作或者循环神经网络一起使用;为简化计算,函数g为一个线性变换层,如公式(2)所示;g(xj)=Wgxj (2)Wg是一个能够学习的权值,通过使用1×1的卷积层来实现;函数f被定义为:
θ(xi)=Wθxi和
是两个嵌入层,正则化参数C(x)由N表示,N是特征图X中位置的数量;同时,使用一个残差结构来得到最终的非局部块,zi=Wzyi+xi (4)y是公式(1)得到,同样非局部块能够插入到任何一个残差神经网络结构之间;(2)编码网络构建一个残差全局编码网络来获取全局的空间信息;在残差神经网络中,残差连接能够提高层与层之间的特征学习能力,同时利用插入在残差层中的Non‑local块可以给局部特征提供全局的信息来增加每个特征点的表征能力;在获取局部特征时,使用部分预训练的ResNet‑101模型的参数来初始化的网络,提高的模型的训练效率;使用f={fi,j,c}来表示输入图像x到特征提取网络后得到的2D空间特征,i和j分别表示2D空间特征中图像的宽度和高度,c表示通道数;在空间特征中,加入了使用one‑hot编码的坐标信息,得到最终的全局特征;
Wei和Wej是两个嵌入矩阵,把左边信息嵌入到和图像特征相同语义空间中;We是一个权值矩阵,由一个1×1的卷积层实现得到;第二、基于注意力的解码器:对文本的识别基本上被认为是在一组区域和字符之间进行映射以及建模序列相互依赖性的任务;类似于之前的方法,使用一个基于注意力机制的循环神经网络RNN中的r作为不规则文本识别的一个重要组成部分;在识别到第t个时间步时,得到输出yt即第t个时间步的预测的值:yt=softmax(WTst) (6)WT是一个能够学习的参数,st是循环神经网络在时间步t的隐层结点;st是由上一个时间步的隐层结点值和预测的标签值以及当前结点的注意力上下文向量ct得到:st=LSTM(st‑1,yt‑1,ct) (7)上下文向量是使用注意力机制得到一个加权求和的特征表示:
在的网络结构中,使用2D注意力机制,在2D空间特征上捕获的注意力权值和每个位置的特征值驻点相乘得到每个位置的加权特征;然后,再对所有的位置进行求和,最终选出一个单一位置大小的特征,表示加权后的特征值;在公式(8)中,注意力权值由scoremap
通过softmax激活得到:![]()
scoremap是结合了上一个时间步信息和视觉特征的进一步表示;函数fatt由一个单层感知机实现:
最终,的模型的损失函数由以下公式(12)计算得到:
x表示输入的文本图像,θ表示需要学习的参数,yt表示第t个时间步的预测的值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811355154.7/,转载请声明来源钻瓜专利网。