[发明专利]文本识别方法、模型训练方法、装置及电子设备在审
申请号: | 202011589091.9 | 申请日: | 2020-12-28 |
公开(公告)号: | CN114693904A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 韦涛;张宏源 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/80;G06V30/10;G06V10/82;G06V10/46;G06K9/62;G06N3/04;G06N3/08;G06T9/00 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 模型 训练 装置 电子设备 | ||
本发明公开了一种文本识别方法、模型训练方法、装置及电子设备,通过特征提取网络提取目标文本图像的二维图像特征序列;将二维图像特征序列输入至编码器网络中进行编码,得到二维编码特征序列,编码器网络利用注意力机制创建;将二维编码特征序列输入至解码器网络中进行解码,得到目标文本图像中的文字信息,解码器网络利用注意力机制创建。本发明实施例能够应用于对任意姿态字体的识别,并且提高了文本识别的准确性。
技术领域
本发明实施例属于识别领域,尤其涉及一种文本识别方法、模型训练方法、装置及电子设备。
背景技术
在文本识别算法领域,经常会遇到对非规整文字的识别,其中,会存在比较复杂的文本姿态,比如:文字扭曲、文本排版方式不规整等。
现有技术提供了多种对非规整文字进行识别的技术方案,其中,现有技术方案一:预先将非规整文字矫正为规整文字后再进行识别。如通过训练STN矫正网络来对图像上的文字进行矫正,因此,文字识别效果的准确很大程度上依赖于矫正网络的矫正效果,在遇到比较复杂姿态的文字(如扭曲)时,STN矫正网络的矫正效果并不理想从而导致文字识别效果较差。现有技术方案二:将图像特征编码为多个方向的图像特征,然后通过建模多个方向的特征来解决文字不规整的问题。多方向的特征编码复杂且引入了冗余特征,并且丢失了空间信息。现有技术方案三:将图像通过编码器编码为一维特征,再将该特征利用解码器翻译成文本,将损失的部分信息,导致识别效果不高。
但是,现有技术方案对非规整文本的识别效果均不佳。
发明内容
鉴于现有技术存在对非规整文本的识别效果不佳的技术问题,本发明实施例提供一种文本识别方法、模型训练方法、装置及电子设备。
第一方面,本发明实施例提供一种文本识别方法,包括:
获取待识别的目标文本图像,通过特征提取网络提取所述目标文本图像的二维图像特征序列;
将所述二维图像特征序列输入至编码器网络中进行编码,得到二维编码特征序列,所述编码器网络利用注意力机制创建;
将所述二维编码特征序列输入至解码器网络中进行解码,得到所述目标文本图像中的文字信息,所述解码器网络利用注意力机制创建。
可选地,所述编码器网络包括基于注意力机制创建的二维注意力网络,以及与所述二维注意力网络级联的平行注意力网络,所述将所述二维图像特征序列输入至编码器网络中进行编码,得到二维编码特征序列,包括:
针对所述二维图像特征序列中每个二维图像特征融合位置编码,得到二维融合特征序列;
将所述二维融合特征序列分别输入至所述二维注意力网络,通过所述二维注意力网络进行自注意力计算,以得到二维的第一输出特征序列;
将所述第一输出特征序列和所述二维图像特征序列输入至所述平行注意力网络中进行并行编码,以得到第二输出特征序列,所述第二输出特征序列包含所述二维图像特征序列中每个二维图像特征对应的编码特征。
可选地,所述二维注意力网络采用多层二维注意力层,其中,每层二维注意力层包含多个自注意力单元;
所述通过所述二维注意力网络进行自注意力计算,得到二维的第一输出特征序列,包括:
通过所述多层二维注意力层顺序处理所述二维融合特征序列中每个二维融合特征,得到所述第一输出特征序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011589091.9/2.html,转载请声明来源钻瓜专利网。