[发明专利]文字识别方法、装置和电子设备有效
申请号: | 201910327410.X | 申请日: | 2019-04-23 |
公开(公告)号: | CN110084172B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 卢永晨 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V10/22;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06T9/00 |
代理公司: | 北京天达共和律师事务所 11798 | 代理人: | 关刚 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 方法 装置 电子设备 | ||
本公开公开了一种文字识别方法、装置和电子设备。其中,所述文字识别方法包括:从原始图像中获取包括文字的图像区域;从所述图像区域中提取文字的图像特征生成第一文字特征图像;将所述第一文字特征图像进行第一编码生成第一编码图像;将所述第一编码图像进行解码生成解码图像;将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像;对所述融合特征图像中的图像特征进行分类以识别出所述文字。本公开通过将三个不同维度的特征图像进行融合,使用融合后的特征图像对文字进行识别,解决了现有技术中文字识别准确率无法进一步提升的技术问题。
技术领域
本公开涉及信息处理领域,特别是涉及一种文字识别方法、装置和电子设备。
背景技术
文字识别一般是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。一般来说,文字识别一般包括检测和识别两个过程,其中检测过程包括找到图像中包含文字的区域,识别过程包括识别所述文字区域中的文字。
传统的识别过程一般可以使用模板匹配或者特征提取比较特征的方法,但是这种方法通常会受文字的状态影响,比如文字的方向、光线的强度等等,导致识别的准确度和速度有限。近年来,还有使用全连接神经网络进行识别的方法,但是全连接神经网络无法识别文字的语义信息,导致识别准确度无法进一步提升。也有技术在识别过程中加入语义模型,但是加入语义模型之后,模型的训练速度变慢影响效率。
发明内容
根据本公开的一个方面,提供以下技术方案:
一种文字识别方法,包括:从原始图像中获取包括文字的图像区域;从所述图像区域中提取文字的图像特征生成第一文字特征图像;将所述第一文字特征图像进行第一编码生成第一编码图像;将所述第一编码图像进行解码生成解码图像;将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像;对所述融合特征图像中的图像特征进行分类以识别出所述文字。
进一步的,所述从所述图像区域中提取文字的图像特征生成文字特征图像,包括:将所述图像区域输入卷积神经网络;通过所述卷积神经网络输出C*H*W大小的第一文字特征图像,其中C为第一文字特征图像的通道数,C≥1,H为第一文字特征图像的高度,H≥1,W为第一文字特征图像的宽度,W≥1。
进一步的,所述将所述第一文字特征图像进行第一编码生成第一编码图像,包括:将所述第一文字特征图像输入编码LSTM网络;所述编码LSTM网络输出所述第一编码图像。
进一步的,所述将所述第一编码图像进行解码生成解码图像,包括:将所述第一编码图像输入解码LSTM网络;所述解码LSTM网络输出解码图像。
进一步的,所述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像,包括:将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加,得到融合特征图像。
进一步的,所述将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加,得到融合特征图像,包括:根据加权系数将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵进行加权相加,得到融合特征图像。
进一步的,在所述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像之前,还包括:将所述第一文字特征图像、第一编码图像和解码图像变换为同一维度大小的图像。
进一步的,所述对所述融合特征图像中的图像特征进行分类以识别出所述文字,包括:将所述融合特征图像输入第一全连接网络;所述第一全连接网络输出融合特征图像中所包含的文字类别;根据所述文字类别识别出所述图像区域中的文字。
进一步的,所述根据所述文字类别识别出所述图像区域中的文字,包括:将识别为同一个文字类别的相邻的文字合并为同一个文字;将合并结果作为识别结果输出。
根据本公开的另一个方面,还提供以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910327410.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地铁车顶异物检测装置及检测方法
- 下一篇:人头检测方法及装置