[发明专利]基于CTC的图像文字识别方法及装置在审
申请号: | 202011600857.9 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112766052A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 钟艺豪;李百川 | 申请(专利权)人: | 有米科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/30;G06N3/04 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 肖宇扬;江银会 |
地址: | 510006 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ctc 图像 文字 识别 方法 装置 | ||
本发明公开了一种基于CTC的图像文字识别方法及装置,包括:基于训练好的文字识别模型识别目标图像中的文字,得到目标图像对应的原文字集合,该原文字集合包括从目标图像中识别出的至少一个原文字;将每个原文字转换成对应的向量,并将所有原文字对应的向量输入预先训练好的语义纠正模型,得到每个原文字对应的预测文字;将所有原文字对应的预测文字确定为目标图像的文字识别结果;其中,该文字识别模型为基于连接时序分类CTC的文字识别模型。可见,本发明能够基于文字识别模型与语义纠正模型的组合实现对图像文字的识别,在识别图像文字的同时实现了对识别到的图像文字的语义纠错,有利于提高对图像文字的识别准确率。
技术领域
本发明涉及图像文字识别技术领域,尤其涉及一种基于CTC的图像文字识别方法及装置。
背景技术
当前,人们在日常的生活、工作中需要处理大量的文字,为了节省人们对文字的处理时间,提高处理效率,越来越多的应用场景采用了文字识别技术,且随着文字识别技术的发展日趋成熟,其对于文档类文字有着较高的识别准确率。
在实际应用中,除了要处理文档类文字之外,还需要处理大量的图像文字。然而实践发现,自然场景下的图像中经常会出现不同类型的噪声,例如光照变化、拍摄角度变化、字体大小不一等为图像带来的噪声,在识别这类图像中的文字时,会出现错误识别文字的情况,进而会导致图像文字识别准确率低。可见,如何提高对图像文字的识别准确率显得尤为重要。
发明内容
本发明提供了一种基于CTC的图像文字识别方法及装置,能够提高对图像文字的识别准确率。
本发明第一方面公开了一种基于CTC的图像文字识别方法,所述方法包括:
基于训练好的文字识别模型识别目标图像中的文字,得到所述目标图像对应的原文字集合,所述原文字集合包括从所述目标图像中识别出的至少一个原文字;
将每个所述原文字转换成对应的向量,并将所有所述原文字对应的向量输入预先训练好的语义纠正模型,得到每个所述原文字对应的预测文字;
将所有所述原文字对应的预测文字确定为所述目标图像的文字识别结果;
其中,所述文字识别模型为基于连接时序分类CTC的文字识别模型。
作为一种可选的实施方式,在本发明第一方面中,所述将所有所述原文字对应的向量输入预先训练好的语义纠正模型,得到每个所述原文字对应的预测文字,包括:
对于每个所述原文字,将该原文字对应的向量分别乘以预先确定出的矩阵WQ、矩阵WK及矩阵WV,得到该原文字对应的查询向量、该原文字对应的键向量以及该原文字对应的值向量,并对该原文字对应的查询向量、键向量及值向量执行编解码操作,得到该原文字对应的预测文字。
作为一种可选的实施方式,在本发明第一方面中,所述基于训练好的文字识别模型识别目标图像中的文字,得到所述目标图像对应的原文字集合之前,所述方法还包括:
基于预先确定出的训练图像样本联合训练文字识别模型及语义纠正模型。
作为一种可选的实施方式,在本发明第一方面中,所述基于预先确定出的训练图像样本联合训练文字识别模型及语义纠正模型,包括:
将预先确定出的训练图像样本输入文字识别模型得到所述训练图像样本对应的初始文字识别结果及CTC损失函数;以及,将所述训练图像样本对应的初始文字识别结果输入语义纠正模型得到所述训练图像样本对应的目标文字识别结果及交叉熵损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于有米科技股份有限公司,未经有米科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011600857.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序