[发明专利]一种基于注意力机制的文本识别方法有效

申请号：	201811355154.7	申请日：	2018-11-14
公开（公告）号：	CN109543667B	公开（公告）日：	2023-05-23
发明（设计）人：	李宏伟;李蓉	申请（专利权）人：	北京工业大学
主分类号：	G06V30/14	分类号：	G06V30/14;G06T9/00;G06N3/0442;G06N3/0455;G06N3/048;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制的文本识别方法，其特征在于：基于空间注意力的网络SAN是一个端到端的文本识别模型，文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器；文本识别模型基于编码解码结构，文本识别模型为编码器和解码器；编码器是用于对输入的图像进行编码，得到解码器可以识别的编码特征序列；解码器用于解码编码器的编码特征，从而实现识别图像中的文本；

将编码器视为一个特征提取网络，编码器用于提取图像中的特征；特征提取网络是一个带有非局部神经网络的残差块连接的神经网络；输入大小为W×H的图像到图像特征提取网络中，得到整个图像的特征图，W表示图像的宽，H表示图像的高；然后使用在编码器和解码器之间的注意力机制，在每个时间步关注空间区域中的一部分；最后使用基于LSTM的解码器，预测每个时间步的输出，得到字符序列C＝{C₁，C₂，......，C_N}，N表示字符序列的个数，C₁，C₂.....C_N表示序列的各个元素；

第一、特征提取网络：

(1)非局部神经网络

非局部操作将某位置处的特征值计算为输入特征位置的所有位置特征的加权和，如公式(1)所示；

i表示在输入图像X中输出位置的索引，j表示在输入图像X中其余所有位置的索引，y表示和输入图像大小相同的输出特征图；函数f表示计算i和所有j之间的一个标量，函数g计算一个输入特征的表示，C(x)是一个正则化因子；

函数g为一个线性变换层，如公式(2)所示；

g(x_j)＝W_gx_j (2)

W_g是一个能够学习的权值，通过使用1×1的卷积层来实现；函数f被定义为：

θ(x_i)＝W_θx_i和是两个嵌入层，正则化参数C(x)由N表示，N是特征图X中位置的数量；同时，使用一个残差结构来得到最终的非局部块，

z_i＝W_zy_i+x_i (4)

y是公式(1)得到；

(2)编码网络

构建一个残差全局编码网络来获取全局的空间信息；在获取局部特征时，使用部分预训练的ResNet-101模型的参数来初始化网络，提高模型的训练效率；