[发明专利]字符识别方法、装置、计算机设备以及存储介质在审
申请号: | 202210384895.8 | 申请日: | 2022-04-13 |
公开(公告)号: | CN114943958A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 申啸尘;周有喜 | 申请(专利权)人: | 深圳市爱深盈通信息技术有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/10;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市程炎知识产权代理事务所(普通合伙) 44676 | 代理人: | 罗水江 |
地址: | 518071 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 识别 方法 装置 计算机 设备 以及 存储 介质 | ||
本申请提供字符识别方法、装置、计算机设备以及存储介质,其中,方法包括:获取待识别图像,所述待识别图像包含待识别字符;在通过特征提取网络对所述待识别图像进行特征提取的过程中,对所述特征提取网络提取得到的至少一张特征图进行目标向量替换,以得到所述待识别图像对应的目标特征图;其中,目标向量是指在特征图中沿字符方向排列的向量,目标向量替换是指利用特征图中的一目标向量替换特征图中的另一目标向量;基于所述目标特征图进行字符识别,以确定所述待识别图像中的字符。该技术方案充分建立字符之间的关联关系,提高字符识别的准确性。
技术领域
本申请涉及图像识别领域,尤其涉及字符识别方法、装置、计算机设备以及存储介质。
背景技术
光学字符识别(opticalcharacterrecognition,OCR),是指电子设备(如扫描仪或相机等)检测纸质文档上打印的字符,通过检测暗、亮的模式确定其形状,然后通过字符识别方法将形状翻译成文字的过程。在传统的OCR方案中,一般是先利用投影方法切割出单个字符,再将切割出的字符送入卷积神经网络(convolutionalneuralnetworks,CNN)中进行分类。
随着技术的发展,人们提出了基于深度学习的端到端的OCR识别方案,即不再对字符进行切割,而是将字符识别转化为序列学习的问题,将字符的切割融入到深度学习中,直接对包含字符的文本图像进行文本识别,确定该文本图像中的字符。基于深度学习的端到端的OCR识别方案主要是通过卷积特征提取和序列特征预测后,对预测标签进行翻译转录后输出文字。由于字符之间存在一定的关联关系,在进行字符识别时,如果能够建立起字符之间的相关性,能够提高识别的效率。因此,如何建立字符之间的关联关系,成为了亟需解决的技术问题。
发明内容
本申请提供字符识别方法、装置、计算机设备以及存储介质,以建立字符之间的关联关系,提高字符识别的准确性。
第一方面,提供一种字符识别方法,包括:
获取待识别图像,所述待识别图像包含待识别字符;
在通过特征提取网络对所述待识别图像进行特征提取的过程中,对所述特征提取网络提取得到的至少一张特征图进行目标向量替换,以得到所述待识别图像对应的目标特征图;其中,目标向量是指在特征图中沿字符方向排列的向量,目标向量替换是指利用特征图中的一目标向量替换特征图中的另一目标向量;
基于所述目标特征图进行字符识别,以确定所述待识别图像中的字符。。
在该技术方案中,在获取到待识别图像后,在通过特征提取网络对待识别图像进行特征提取的过程中,对特征提取网络提到得到的特征图进行目标向量替换,得到待识别对应的目标特征图,再基于目标特征图进行字符识别,从而确定待识别图像中的字符。其中,目标向量是指在特征图中沿字符方向排列的向量,目标向量替换是指利用特征图中的一个目标向量替换特征图中的另一个目标向量,在特征提取过程中对特征图进行目标向量替换即是指在特征提取过程中将特征图中沿字符方向排列的向量进行替换,由于沿字符方向排列的向量可以指示某个字符的部分特征信息,因此,在特征提取过程中将特征图中沿字符方向排列的向量进行替换能够建立字符之间的联系,使得目标特征图中包含字符之间的相关性,可以提高字符识别的精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市爱深盈通信息技术有限公司,未经深圳市爱深盈通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210384895.8/2.html,转载请声明来源钻瓜专利网。