[发明专利]文本图像识别方法、装置、计算机设备和存储介质有效
申请号: | 202110537652.9 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113313127B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 黄双萍;罗钰;陈洲楠 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/19;G06V20/70;G06V10/82;G06N3/0455;G06N3/0464;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李君 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 图像 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种文本图像识别方法、装置、计算机设备和存储介质,所述方法包括:获取原始文本图像并进行预处理,得到处理后图像;利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分和通道级尺度注意力部分,对图像特征进行处理,得到上下文调制特征序列;对上下文调制序列进行解码,预测得到对应的符号序列。本发明利用上下文感知模块对不同尺度的文本进行上下文调制,同时利用残差模块和上下文感知模块交错连接,实现不同语义层次的上下文信息融合,为后续解码提供更多有效信息,提高了文本识别的准确率。
技术领域
本发明属于文本识别技术领域,特别是涉及一种文本图像识别方法、装置、计算机设备和存储介质。
背景技术
场景文本识别技术在许多领域,例如无人驾驶、机器人导航、盲人引导技术等,都有着广泛的应用并发挥着重要作用。然而,由于实际应用中存在的问题,如文本样式、成像条件、环境背景等存在复杂差异,现有场景文本识别方法在实际情景下并不能实现准确的识别。
当前主流场景文本识别方法可以分为三类,基于字符分割的识别、基于单词分类的识别以及基于序列模型的识别方法。基于字符分割的识别方法首先通过滑窗或图像切片等方式检测、分割得到单个字符,再进一步对字符进行分类识别。这种方法存在如下问题:首先,字符的分割仍然是当前的一个难点问题;其次,这种方法忽略了字符之间的上下文信息。为避免字符分割问题,基于单词分类的识别方法直接对整个单词进行分类识别。但是该方法存在一定局限性:首先,该类方法只能识别存在于词典中的单词;其次,同样忽略了字符间潜在的上下文信息。第三类基于序列模型的识别方法采用编解码结构,先通过卷积神经网络和循环神经网络对文本图像进行特征编码以及序列编码,最后通过连接时序分类方法(ConnectionistTemporalClassification,CTC)或注意力机制将序列解码为文本。不同于前两类方法,尽管已有的这类方法考虑了字符间上下文信息,但是依然存在如下缺点:第一,没有考虑到从局部到全局的不同尺度上下文信息;第二,无法灵活地对上下文尺度进行选择和调整。
发明内容
为了解决上述现有技术的不足,本发明提供了一种文本图像识别方法、装置、计算机设备和存储介质,利用上下文感知网络中的上下文感知模块对不同尺度的文本进行上下文调制,同时,利用残差网络中的残差模块和上下文感知模块相互交错连接,实现不同语义层次的上下文信息融合,为后续序列解码提供了更多有效信息,提高了文本识别的准确率。
本发明的第一个目的在于提供一种文本图像识别方法。
本发明的第二个目的在于提供一种文本图像识别装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种文本图像识别方法,所述方法包括:
获取原始文本图像;
对原始文本图像进行预处理,得到处理后图像;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
对所述上下文调制序列进行解码,预测得到对应的符号序列。
进一步的,所述残差卷积模块为n个,所述上下文感知模块为n个;其中,n为大于1的整数,且每个残差卷积模块与每个上下文感知模块交替连接;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110537652.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序