[发明专利]一种基于门控级联注意力机制的文字识别方法在审

专利信息
申请号: 201910040323.6 申请日: 2019-01-16
公开(公告)号: CN109919174A 公开(公告)日: 2019-06-21
发明(设计)人: 王思薇;王勇涛;汤帜 申请(专利权)人: 北京大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 黄凤茹
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 注意力机制 文字识别 级联 特征向量序列 解码器 编码器 门控 对准 目标字符序列 图像文字识别 解码器框架 字符集 人力成本 输入图像 准确度 鲁棒性 准确率 迭代 标注 场景 监督 学习
【权利要求书】:

1.一种基于门控级联注意力机制的文字识别方法,采用基于注意力机制的编码器-解码器框架,在解码器中通过级联迭代的方式,逐步增强注意力机制对准的准确度,从而提升识别文字的准确率;包括如下步骤:

1)采用卷积神经网络和长短期记忆网络构建编码器;使用编码器从输入图像中提取出特征向量序列;执行操作11)~12):

11)使用多层卷积神经网络从输入图像中提取视觉特征图;

所述多层卷积神经网络采用残差网络结构并引入卷积块注意力模块以提升特征表达能力;

12)将视觉特征图按列切分成特征向量序列,并使用长短期记忆网络进一步建进一步编码,得到编码后的特征向量序列;

2)使用解码器依据编码后的特征向量序列循环地生成目标字符序列;解码器解码过程包含T步,其中T为目标字符序列的长度;解码器第t步生成第t个字符,对于第t步,执行操作21)~22):

21)使用门控级联注意力模块,生成输入图像中第t个字符在候选字符集上的概率分布;包括:

211)门控级联注意力模块采用级联结构,通过多轮迭代得到对准更加精确的注意力权重;

212)每轮迭代中,依据当前输入的特征向量序列计算注意力权重分布和隐状态,并将根据注意力权重加权后的特征向量序列作为下一轮迭代的输入特征向量序列;

213)将最后一轮迭代的隐状态输入一个softmax分类器,得到在候选字符集上的概率分布;

22)使用集束搜索方法,得到前t-1步中累计概率最大的前k个字符序列,再根据步骤2)得到的第t步预测的概率分布,保留其中得分最高的前k个字符序列,作为最终的预测结果,即为识别得到的文字。

2.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,步骤12)所述长短期记忆网络为双向长短期记忆网络或二维长短期记忆网络;

所述长短期记忆网络为双向长短期记忆网络时,将视觉特征图按列切分成特征向量序列,再使用双向长短期记忆网络进一步编码,编码后得到特征向量序列h=(h1,h2…,hL),序列的特征向量个数L为卷积神经网络输出的视觉特征图的宽度W;

所述长短期记忆网络为二维长短期记忆网络时,使用二维长短期记忆网络对视觉特征图进一步编码,得到编码后的特征图,再将该特征图按空间位置划分,得到最终编码的特征向量序列h=(h1,h2…,hL),其中L=H×W,H,W分别为卷积神经网络输出的视觉特征图的高度和宽度。

3.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,步骤11)所述卷积块注意力模块依次使用通道维度的注意力模块Mc和空间维度的注意力模块Ms对输入的特征图进行加权;对于通道数为C,高度为H,宽度为W的输入特征图F,通道维度的注意力通过式1计算得到:

其中,σ表示sigmoid函数,和分别表示平均池化和最大池化后的特征图,维度为C×1×1;W0和W1为可学习参数;空间维度的注意力通过式2计算:

其中,[;]表示拼接操作,和分别表示平均池化和最大池化后的特征图,维度为1×H×W;Conv表示一个卷积核大小为3×3的卷积层。

4.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,步骤11)所述多层卷积神经网络中,残差网络模块的参数格式为{[卷积核大小,通道数]×模块个数},步长和填补均设为1;其他非残差结构的卷积层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高,通道数};最大池化层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高};卷积块注意力模块的参数格式为{通道数,压缩比例}。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910040323.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top