[发明专利]一种基于门控级联注意力机制的文字识别方法在审
申请号: | 201910040323.6 | 申请日: | 2019-01-16 |
公开(公告)号: | CN109919174A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 王思薇;王勇涛;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种基于门控级联注意力机制的文字识别方法,涉及深度学习与图像文字识别技术。本发明方法采用基于注意力机制的编码器‑解码器框架,使用编码器从输入图像中提取出特征向量序列;使用解码器依据编码后的特征向量序列循环地生成目标字符序列;在解码器中通过级联迭代的方式,逐步增强注意力机制对准的准确度,提升了注意力机制对准的准确性,避免利用额外的字符集标注数据来监督注意力机制训练,节省了人力成本,提高了场景文字识别的准确率,增强了识别模型对复杂情况的鲁棒性。 | ||
搜索关键词: | 注意力机制 文字识别 级联 特征向量序列 解码器 编码器 门控 对准 目标字符序列 图像文字识别 解码器框架 字符集 人力成本 输入图像 准确度 鲁棒性 准确率 迭代 标注 场景 监督 学习 | ||
【主权项】:
1.一种基于门控级联注意力机制的文字识别方法,采用基于注意力机制的编码器‑解码器框架,在解码器中通过级联迭代的方式,逐步增强注意力机制对准的准确度,从而提升识别文字的准确率;包括如下步骤:1)采用卷积神经网络和长短期记忆网络构建编码器;使用编码器从输入图像中提取出特征向量序列;执行操作11)~12):11)使用多层卷积神经网络从输入图像中提取视觉特征图;所述多层卷积神经网络采用残差网络结构并引入卷积块注意力模块以提升特征表达能力;12)将视觉特征图按列切分成特征向量序列,并使用长短期记忆网络进一步建进一步编码,得到编码后的特征向量序列;2)使用解码器依据编码后的特征向量序列循环地生成目标字符序列;解码器解码过程包含T步,其中T为目标字符序列的长度;解码器第t步生成第t个字符,对于第t步,执行操作21)~22):21)使用门控级联注意力模块,生成输入图像中第t个字符在候选字符集上的概率分布;包括:211)门控级联注意力模块采用级联结构,通过多轮迭代得到对准更加精确的注意力权重;212)每轮迭代中,依据当前输入的特征向量序列计算注意力权重分布和隐状态,并将根据注意力权重加权后的特征向量序列作为下一轮迭代的输入特征向量序列;213)将最后一轮迭代的隐状态输入一个softmax分类器,得到在候选字符集上的概率分布;22)使用集束搜索方法,得到前t‑1步中累计概率最大的前k个字符序列,再根据步骤2)得到的第t步预测的概率分布,保留其中得分最高的前k个字符序列,作为最终的预测结果,即为识别得到的文字。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910040323.6/,转载请声明来源钻瓜专利网。