[发明专利]一种基于深度学习的无分割字符定位与识别方法有效
申请号: | 201710215116.0 | 申请日: | 2017-04-02 |
公开(公告)号: | CN107133616B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 俞芳芳;董蓉;朱泽民;李勃;查俊;梁振华;史德飞;陈和国;黄璜;周子卿;史春阳 | 申请(专利权)人: | 南京汇川图像视觉技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46;G06K9/62 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 211100 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 分割 字符 定位 识别 方法 | ||
1.一种基于深度学习的无分割字符定位与识别方法,其特征是包括如下步骤:
步骤S1:构建深度卷积神经网络,所述深度卷积神经网络包括通用卷积层网络、候选区域定位网络和分类识别网络,深度卷积神经网络的输入为通用卷积层网络的输入,通用卷积层网络的输出连接候选区域定位网络的输入,通用卷积层网络和候选区域定位网络的输出同时连接分类识别网络的输入,分类识别网络的输出为深度卷积神经网络的输出,设定深度卷积神经网络的输入为图像,输出为图像上各字符的类别和在图像上的位置坐标;
步骤S2:定义候选区域定位网络的损失函数,及分类识别网络的分类损失函数,构建整个网络整体的目标函数,以实现整个网络的训练;
步骤S3:采用标定好的字符类别及位置信息的训练集对网络进行训练,训练方式采用“递进-联合”的训练方式,从而得到用于进行字符定位和识别的网络模型:
3.1)训练通用卷积层部分,采用PASCAL VOC 2012的ZF模型进行迁移初始化;
3.2)在已训练好的通用卷积层的基础上增加候选区域定位网络进行训练,固定通用卷积层网络参数,采用随机初始化的方式初始化候选区域定位网络参数,根据步骤S2中定义的候选区域定位网络的损失函数对候选区域定位网络参数进行调整;
3.3)增加分类识别网络,固定通用卷积层网络以及候选区域定位网络参数,采用随机初始化的方式初始化分类识别网络的参数,根据步骤S2中定义的分类识别网络损失函数,对分类识别网络的参数进行学习和调整;
3.4)根据步骤S2中定义的整个网络整体的目标函数对整个网络进行端对端的微调,获得最终的训练结果;
步骤S4:输入测试图像,利用步骤S3中得到的网络提取图像中若干字符的可能区域及分类识别的结果;
步骤S5:对步骤S4中所得到的候选字符识别结果进行非极大值抑制得分阈值判断,得到最终的检测结果。
2.根据权利要求1所述的基于深度学习的无分割字符定位与识别方法,其特征是步骤S1中,各网络具体为:
通用卷积层网络:输入图像为任意尺寸大小,通用卷积层采用5层卷积层结构,层与层之间使用Relu激活函数,且前两层卷积层后加入最大值池化层,通用卷积层网络用于提取图像特征图;
候选区域定位网络:采用在特征图上进行多尺度采样的方式提取不同尺度物体的特征,对通用卷积层后得到的每一维特征图使用滑动窗口法,对于每个滑动窗口中心点,提取K种可能的候选窗口,K种可能性包括了a种面积尺度以及b种长宽比,即:K=a*b,继而将提取的特征分别输入给窗口回归层和窗口得分层,分别得到对于该滑动窗口中心点提取的K个候选窗口的位置修正,以及是否属于前景目标的得分,最终对提取到的所有候选窗口进行非极大值抑制处理,并最终提取得分最高的N个候选窗口作为候选区域建议进入最终的目标分类;
分类识别网络:对候选区域定位网络所得的候选区域进行分类判断,以及进一步的定位位置精修,通过计算候选区域在特征图中的位置提取候选区域的特征图,将特征图经过两个全连接层后分别输入给分类得分层和位置精修层,分别获得该候选区域的类别得分以及位置修正。
3.根据权利要求1所述的基于深度学习的无分割字符定位与识别方法,其特征是步骤S2中,候选区域定位网络的损失函数为:
在候选区域定位网络中,损失函数包含窗口得分和窗口回归两部分,
窗口得分网络为一个是否是目标的二值分类器,定义其分类损失函数为:
其中,pi表示在一次批梯度下降法中第i个候选窗口预测为目标的得分,也即其属于目标的概率,代表训练标签,当该候选窗口为正样本时负样本时
窗口回归网络为判断窗口回归位置是否接近实际标签,定义其回归损失函数为:
其中,ti表示在一次批梯度下降法中第i个候选窗口回归的位置信息,包括中心点坐标、窗口宽度和窗口高度的相对修正值,表示正样本窗口的位置信息,R函数采用如下函数:
这里变量x即对应
根据分类损失函数和回归损失函数后,候选区域定位网络的损失函数为:
其中p={pi},t={ti},参数λ为两个子损失函数的权衡参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京汇川图像视觉技术有限公司,未经南京汇川图像视觉技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710215116.0/1.html,转载请声明来源钻瓜专利网。