[发明专利]一种基于修正网络的不规则文本识别系统及方法在审
申请号: | 201911145879.8 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110889404A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 张雨柔;李锐;于治楼 | 申请(专利权)人: | 山东浪潮人工智能研究院有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06N3/04;G06N3/08 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 修正 网络 不规则 文本 识别 系统 方法 | ||
本发明公开了一种基于修正网络的不规则文本识别系统及方法,本发明的识别系统包括文本修正网络和文本识别网络本发明还涉及一种基于修正网络的不规则文本识别方法,包括如下步骤:通过文本修正网络将不规则文本图片转换成规则文本图片;通过文本识别网络识别上述规则文本图片并输出相对应的文本信息。本发明的识别方法先通过文本修正网络对不规则文本进行修正,如使图片中的文本在水平方向上呈现、去除图片中不相关的噪音信息,再通过后续文本识别网络进行识别,基于修正网络对不规则文本图片进行处理能够避免几何约束,可以对各种复杂的不规则的文本图片进行修正,降低了后序文本识别的难度,进而识别效率也就更高。
技术领域
本发明涉及计算机视觉技术领域,具体地说是一种基于修正网络的不规则文本识别系统及方法。
背景技术
自然场景中文本识别技术可以帮助人们更好更便捷地获取现实生活中的信息,帮助人们了解周围的环境。然而,自然场景中的所包含的文本大都是不规则的文本,可能是弯曲的、切斜的,或者包含大量噪音信息的文本形式。目前,针对规则文本的识别技术借助于深度网络的优势已经取得了很好的进展,但无法使其直接应用于不规则文本的识别问题中,现在针对不规则文本图片大都采用基于注意力机制的方法,此类方法不需要对不规则的文本进行修正,直接在原始的图片上结合注意力图定位每一步所需要关注的文本信息位置,直接识别出图片中的文本信息。由于之前方法的一些局限性,例如,在训练的过程中需要更多的监督信息,采用放射变换可能引入更多的噪声等问题,
发明内容
本发明的目的是针对以上不足,提供一种更高效的识别基于修正网络的不规则文本识别系统,还提供一种更高效的基于修正网络的不规则文本识别方法。
本发明所采用技术方案是:
一种基于修正网络的不规则文本识别系统,包括文本修正网络和文本识别网络,其中:
文本修正网络:用于将不规则文本图片转换为规则文本图片;
文本识别网络:用于识别上述规则的文本图片并生成文本信息。
作为优化,本发明所述文本修正网络包括预测网络和图片网格化模块,其中:
预测网络:基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差;
图片网格化模块:将不规则文本图片生成网格图,获得不规则文本图片上的每个像素的坐标信息,综合每个像素的坐标信息与相对应的位置偏差,输出每个像素的转换后的坐标信息。
作为优化,本发明所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意力机制。
本发明还涉及一种基于修正网络的不规则文本识别方法,包括如下步骤:
通过文本修正网络将不规则文本图片转换成规则文本图片;
通过文本识别网络识别上述规则文本图片并输出相对应的文本信息。
作为优化,本发明所述将不规则文本图片转换成规则的文本图片的步骤包括:
基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标;
基于正则化的处理方式获得原始的不规则文本图片上每个像素的原始位置坐标;
将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标;
将每个像素的归一化坐标与相应的位置偏差坐标做求和处理获得每个像素的转换位置坐标。
作为优化,本发明所述基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司,未经山东浪潮人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911145879.8/2.html,转载请声明来源钻瓜专利网。