[发明专利]文本识别方法、模型训练方法、装置及电子设备在审
申请号: | 202011589091.9 | 申请日: | 2020-12-28 |
公开(公告)号: | CN114693904A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 韦涛;张宏源 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/80;G06V30/10;G06V10/82;G06V10/46;G06K9/62;G06N3/04;G06N3/08;G06T9/00 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 模型 训练 装置 电子设备 | ||
1.一种文本识别方法,其特征在于,包括:
获取待识别的目标文本图像,通过特征提取网络提取所述目标文本图像的二维图像特征序列;
将所述二维图像特征序列输入至编码器网络中进行编码,得到二维编码特征序列,所述编码器网络利用注意力机制创建;
将所述二维编码特征序列输入至解码器网络中进行解码,得到所述目标文本图像中的文字信息,所述解码器网络利用注意力机制创建。
2.如权利要求1所述的方法,其特征在于,所述编码器网络包括基于注意力机制创建的二维注意力网络,以及与所述二维注意力网络级联的平行注意力网络,所述将所述二维图像特征序列输入至编码器网络中进行编码,得到二维编码特征序列,包括:
针对所述二维图像特征序列中每个二维图像特征融合位置编码,得到二维融合特征序列;
将所述二维融合特征序列分别输入至所述二维注意力网络,通过所述二维注意力网络进行自注意力计算,以得到二维的第一输出特征序列;
将所述第一输出特征序列和所述二维图像特征序列输入至所述平行注意力网络中进行并行编码,以得到第二输出特征序列,所述第二输出特征序列包含所述二维图像特征序列中每个二维图像特征对应的编码特征。
3.如权利要求2所述的方法,其特征在于,所述二维注意力网络采用多层二维注意力层,其中,每层二维注意力层包含多个自注意力单元;所述通过所述二维注意力网络进行自注意力计算,得到二维的第一输出特征序列,包括:
通过所述多层二维注意力层顺序处理所述二维融合特征序列中每个二维融合特征,得到所述第一输出特征序列。
4.一种文本识别模型训练方法,其特征在于,包括:
获取目标数量的原始文本图像;
处理所述目标数量的原始文本图像,以生成多姿态文本图像样本集;
利用所述多姿态文本图像样本集,对包含特征提取网络、编码器网络以及解码器网络级联的文本识别模型进行端到端的训练,其中,所述编码器网络和所述解码器网络基于注意力机制构建。
5.一种文本识别方法,应用于服务端,其特征在于,所述方法包括:
在接收到用户设备采集的目标文本图像时,通过特征提取网络提取所述目标文本图像的二维图像特征序列;
将所述二维图像特征序列输入至编码器网络中进行编码,得到二维编码特征序列,所述编码器网络利用注意力机制创建;
将所述二维编码特征序列输入至解码器网络中进行解码,得到所述目标文本图像中的文字信息,所述解码器网络利用注意力机制创建;
将所述文字信息反馈至所述用户设备,以使所述用户设备输出所述文字信息。
6.一种文本识别装置,其特征在于,包括:
图像获取单元,用于获取待识别的目标文本图像,通过特征提取网络提取所述目标文本图像的二维图像特征序列;
编码单元,用于将所述二维图像特征序列输入至编码器网络中进行编码,得到二维编码特征序列,所述编码器网络利用注意力机制创建;
解码单元,用于将所述二维编码特征序列输入至解码器网络中进行解码,得到所述目标文本图像中的文字信息,所述解码器网络利用注意力机制创建。
7.一种文本识别模型的训练装置,其特征在于,包括:
图像获取单元,用于获取目标数量的原始文本图像;
样本生成单元,用于处理所述目标数量的原始文本图像,以生成多姿态文本图像样本集;
模型训练单元,用于利用所述多姿态文本图像样本集,对包含特征提取网络、编码器网络以及解码器网络级联的文本识别模型进行端到端的训练,其中,所述编码器网络基于注意力机制构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011589091.9/1.html,转载请声明来源钻瓜专利网。