[发明专利]多姿态文本识别方法、装置及电子设备在审
申请号: | 202011589080.0 | 申请日: | 2020-12-28 |
公开(公告)号: | CN114693903A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 韦涛;张宏源 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V30/10;G06V10/80;G06V10/82;G06V30/148;G06K9/62;G06N3/04;G06N3/08;G06T9/00 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多姿 文本 识别 方法 装置 电子设备 | ||
本发明公开了一种多姿态文本识别方法、装置及电子设备,应用于识别技术领域,通过特征提取网络提取目标文本图像的二维图像特征;将二维图像特征切分为多个等长的特征片段;将多个等长的特征片段输入至基于注意力机制创建的编码器网络中进行编码,分别得到特征片段;融合多个等长的特征片段的编码特征,并将融合得到的融合编码特征序列输入至解码器网络进行解码,得到目标文本图像中的文字信息。通过本发明实现了对多姿态变长文本的准确识别。
技术领域
本发明实施例属于识别技术领域,尤其涉及一种多姿态文本识别方法、装置及电子设备。
背景技术
在利用OCR(Optical Character Recognition,光学字符识别)技术将图像中提取可以编辑文本的场景中,图像中文本姿态存在多样性,即自然场景中的文字排版、文字形态是多种多样,且由于拍摄角度或者目标本体的差异性,导致文本长度也是多种多样的。
将图片的特征提取出来后,采用RNN(Recurrent Neural Network,循环神经网络)对所提取出来的特征进行预测,并根据预测结果得到可以编辑的文字内容。但是,RNN模型针对变长文本的识别容易出错,导致对变长文本的识别结果准确度不高。
发明内容
鉴于现有技术对变长文本的识别结果准确度不高的技术问题,本发明实施例提供一种多姿态文本识别方法、装置以及电子设备,用以实现从图像中识别多姿态文本时,提高对多姿态文本中变长文本的识别准确性。
第一方面,本发明实施例提供一种多姿态文本识别方法,包括:
获取待识别的目标文本图像,通过特征提取网络提取所述目标文本图像的二维图像特征;
将所述二维图像特征切分为多个等长的特征片段;
将所述多个等长的特征片段输入至编码器网络中进行编码,分别得到所述特征片段对应的编码特征,其中,所述编码器网络基于注意力机制创建;
融合所述多个等长的特征片段的编码特征,并将融合得到的融合编码特征序列输入至解码器网络进行解码,得到所述目标文本图像中的文字信息。
可选地,所述编码器网络包括二维注意力网络,以及与所述二维注意力网路级联的平行注意力网络,所述将所述多个等长的特征片段输入至编码器网络中进行编码,分别得到所述特征片段对应的编码特征,包括:
针对所述多个等长的特征片段融合位置编码,得到二维的融合特征片段序列;
将所述融合特征片段序列输入至所述二维注意力网络中进行自注意力计算,得到二维的第一输出片段序列;
将所述第一输出片段序列和所述多个等长的特征片段输入至所述平行注意力网络中进行并行编码,得到第二输出片段序列,所述第二输出片段序列包含每个特征片段对应的编码特征。
可选地,所述二维注意力网络采用多层二维注意力层,其中,每层二维注意力层包含多个自注意力单元;
所述将所述融合特征片段序列输入至所述二维注意力网络中进行自注意力计算,得到二维的第一输出片段序列,包括:
通过所述多层二维注意力层顺序处理所述融合特征片段序列,得到所述第一输出片段序列。
可选地,所述通过所述多层二维注意力层顺序处理所述融合特征片段序列,得到所述第一输出片段序列,包括:
将所述融合特征片段序列输入至第一层二维注意力层,通过所述第一层二维注意力层对所述融合特征片段序列进行自注意力计算;
通过第二层二维注意力层的每个自注意力单元,对所述第一层二维注意力层的加权输出进行自注意力计算;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011589080.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种ROV模拟训练器
- 下一篇:文本识别方法、模型训练方法、装置及电子设备