[发明专利]一种基于深度学习的无分割字符定位与识别方法有效
申请号: | 201710215116.0 | 申请日: | 2017-04-02 |
公开(公告)号: | CN107133616B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 俞芳芳;董蓉;朱泽民;李勃;查俊;梁振华;史德飞;陈和国;黄璜;周子卿;史春阳 | 申请(专利权)人: | 南京汇川图像视觉技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46;G06K9/62 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 211100 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 分割 字符 定位 识别 方法 | ||
一种基于深度学习的无分割字符定位与识别方法,首先构建深度卷积神经网络,包括通用卷积层网络、候选区域定位网络、分类识别网络三大部分;其次构建整个网络整体的目标函数,以实现整个网络全局端对端的训练;继而采用人工标定的训练集以及“递进‑联合”的训练方式对网络进行训练;当应用至测试时,利用训练所得的网络可提取测试图像中若干字符的可能区域及分类识别的结果;最后,对网络所得结果进行非极大值抑制及得分阈值判断的后处理,得到最终的检测结果。本发明方法使用简单,无需进行字符分割预处理,可兼容多种字符形态,且具有较强的抗背景干扰能力,可作为一种通用的字符检测方法。
技术领域
本发明涉及机器视觉、图像处理技术领域,具体为一种基于深度学习的无分割字符定位与识别方法。
背景技术
目前的光学字符识别(Optical Character Recognition,OCR)主要采取“字符分割+字符识别”的模式,如:王伟等人的《SVM多类分类器在车牌字符识别中的应用》【1】首先对字符进行简单分割提取后分别利用字符稳定的欧拉数特征和基于Fisher判别准则设计SVM二叉分类树对字符进行粗细分类;宋春静等人(“基于深度信念网络的集装箱字符识别方法”)首先对预处理图像进行水平投影和连通域分析,实现字符分割提取后,利用深度信念网络模型对字符进行深度学习。巩玉滨等人《一种数显仪表数字字符识别方法研究》【2】运用行分割、单字分割与规范化进行数字字符的准确分割模糊图像,以网格法与交线特征提取法提取数显仪表数字字符的特征,采用三层BP神经网络进行数字字符识别。
采用这种识别的模式是由于其输入图像往往是使用规范的印刷体、拥有几乎无干扰的背景、具有较高的分辨率,因而可以通过传统的字符分割算法即可提取每个字符区域。然而当应用到自然场景中时,由于自然场景中的字符具有背景复杂、质量低下、形态多变等特点,从而使得字符与背景见难以用简单的人为选择的特征进行区分,继而难以正确分割乃至识别。
现有的字符识别算法虽然在识别上通过引入深度学习网络的方式提取特征,获得较好的分类效果,但是在分割上依旧依赖于传统的人工选取特征分割算法,从而无法兼容较为复杂的自然场景下的字符分割与识别。因此,需要一种能够自动提取字符具有代表性的特征,让机器可以像人眼一样对整幅图像实现字符定位和分类的字符识别算法。
参考文献
【1】王伟,马永强,彭强.SVM多类分类器在车牌字符识别中的应用[J].计算机工程与设计,2011,32(9):3166-3169.
【2】巩玉滨,杨红娟,张运楚,等.一种数显仪表数字字符识别方法研究[J].山东建筑大学学报,2011,26(2):134-137.
发明内容
本发明要解决的技术问题是:现有的光学字符识别算法主要采取“字符分割+字符识别”的模式,无法应对自然场景的背景复杂、质量低下、形态多变等特点,字符与背景间难以用简单的人为选择的特征进行区分,继而难以正确分割乃至识别。因此现有的光学字符识别算法对于复杂自然场景下的字符不能达到较好的识别效果。
本发明的技术方案为:一种基于深度学习的无分割字符定位与识别方法,包括如下步骤:
步骤S1:构建深度卷积神经网络,所述多层卷积神经网络包括通用卷积层网络、候选区域定位网络和分类识别网络,设定多层卷积神经网络的输入为图像,输出为图像上各字符的类别和在图像上的位置坐标;
步骤S2:定义候选区域定位网络的损失函数,及分类识别网络的分类损失函数,构建整个网络整体的目标函数,以实现整个网络的训练;
步骤S3:采用标定好的字符类别及位置信息的训练集对网络进行训练,训练方式采用“递进-联合”的训练方式,从而得到用于进行字符定位和识别的网络模型:
3.1)训练通用卷积层部分,采用从PASCAL VOC 2012的ZF模型进行迁移初始化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京汇川图像视觉技术有限公司,未经南京汇川图像视觉技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710215116.0/2.html,转载请声明来源钻瓜专利网。