[发明专利]一种基于注意力机制的文本识别方法有效
申请号: | 201811355154.7 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109543667B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 李宏伟;李蓉 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06T9/00;G06N3/0442;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 文本 识别 方法 | ||
1.一种基于注意力机制的文本识别方法,其特征在于:基于空间注意力的网络SAN是一个端到端的文本识别模型,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器;文本识别模型基于编码解码结构,文本识别模型为编码器和解码器;编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列;解码器用于解码编码器的编码特征,从而实现识别图像中的文本;
将编码器视为一个特征提取网络,编码器用于提取图像中的特征;特征提取网络是一个带有非局部神经网络的残差块连接的神经网络;输入大小为W×H的图像到图像特征提取网络中,得到整个图像的特征图,W表示图像的宽,H表示图像的高;然后使用在编码器和解码器之间的注意力机制,在每个时间步关注空间区域中的一部分;最后使用基于LSTM的解码器,预测每个时间步的输出,得到字符序列C={C1,C2,......,CN},N表示字符序列的个数,C1,C2.....CN表示序列的各个元素;
第一、特征提取网络:
(1)非局部神经网络
非局部操作将某位置处的特征值计算为输入特征位置的所有位置特征的加权和,如公式(1)所示;
i表示在输入图像X中输出位置的索引,j表示在输入图像X中其余所有位置的索引,y表示和输入图像大小相同的输出特征图;函数f表示计算i和所有j之间的一个标量,函数g计算一个输入特征的表示,C(x)是一个正则化因子;
函数g为一个线性变换层,如公式(2)所示;
g(xj)=Wgxj (2)
Wg是一个能够学习的权值,通过使用1×1的卷积层来实现;函数f被定义为:
θ(xi)=Wθxi和是两个嵌入层,正则化参数C(x)由N表示,N是特征图X中位置的数量;同时,使用一个残差结构来得到最终的非局部块,
zi=Wzyi+xi (4)
y是公式(1)得到;
(2)编码网络
构建一个残差全局编码网络来获取全局的空间信息;在获取局部特征时,使用部分预训练的ResNet-101模型的参数来初始化网络,提高模型的训练效率;
使用f={fi,j,c}来表示输入图像x到特征提取网络后得到的2D空间特征,i和j分别表示2D空间特征中图像的宽度和高度,c表示通道数;在空间特征中,加入了使用one-hot编码的坐标信息,得到最终的全局特征;
和是两个嵌入矩阵,把左边信息嵌入到和图像特征相同语义空间中;We是一个权值矩阵,由一个1×1的卷积层实现;
第二、基于注意力的解码器:
在识别到第t个时间步时,得到输出yt即第t个时间步的预测的值:
yt=softmax(WTst) (6)
WT是一个能够学习的参数,st是循环神经网络在时间步t的隐层结点;st是由上一个时间步的隐层结点值和预测的标签值以及当前结点的注意力上下文向量ct得到:
st=LSTM(st-1,yt-1,ct) (7)
上下文向量是使用注意力机制得到一个加权求和的特征表示:
在网络结构中,使用2D注意力机制,在2D空间特征上捕获的注意力权值和每个位置的特征值逐点相乘得到每个位置的加权特征;然后,再对所有的位置进行求和,最终选出一个单一位置大小的特征,表示加权后的特征值;在公式(8)中,注意力权值由score map通过softmax激活得到:
函数fatt由一个单层感知机实现:
最终,模型的损失函数由以下公式(12)计算得到:
x表示输入的文本图像,θ表示需要学习的参数,yt表示第t个时间步的预测的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811355154.7/1.html,转载请声明来源钻瓜专利网。