[发明专利]基于深度学习的自然场景证件图像文字识别方法有效
申请号: | 201910630252.5 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110532855B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 王晓甜;吴嘉诚;林亚静;石光明;齐飞;林杰 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/146;G06V30/148;G06V10/82;G06V30/10;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 自然 场景 证件 图像 文字 识别 方法 | ||
1.一种基于深度学习的自然场景证件图像文字识别方法,其特征在于,构建文字定位数据集和文字识别数据集,构建并训练文字定位网络和文字识别网络,该方法的步骤包括如下:
(1)构建图像特征提取模块:
(1a)搭建一个24层特征提取模块,其结构依次为:第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层;
(1b)将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256,卷积核的大小均设置为3x3,卷积步长均设置为1,将其余的卷积层中卷积核的个数均设置为64,除了将第一卷积层的卷积核大小设置为7x7,卷积步长设置为2外,其余卷积层的卷积核的大小均设置为1x1,卷积步长均设置为1,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2,步长均设置为2;
(2)构建文字前景预测模块:
(2a)搭建由三个卷积层组成的文本前景预测模块,其结构依次为:第十七卷积层→第十八卷积层→第十九卷积层;所述第十八卷积和第十九卷积层并联后与第十七卷积层串联;
(2b)将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1,卷积核的个数分别设置为256、18、36,步长均设置为1;
(3)构建文字区域定位模块:
(3a)搭建文字区域定位模块,其结构依次为:第四池化层→第一全连接层→第二全连接层→第三全连接层;所述第二全连接层与第三全连接层并联后与第一全连接层串联;
(3b)将第四池化层设置为全局平均池化方式,池化区域核的大小设置为7x7,步长设置为1,第一、第二、第三全连接层的神经元个数分别设置为4096、2、4;
(4)将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络;
(5)构建字符特征提取模块:
(5a)搭建一个11层的字符特征提取模块,其结构依次为:第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层;
(5b)将第二十至第二十七卷积层中卷积核的大小均设置为3x3,卷积步长均设置为1,其中将第二十、第二十一卷积层中卷积核的个数均设置为64,将第二十二、第二十三卷积层中卷积核的个数均设置为128,将第二十四、第二十七卷积层中卷积核的个数均设置为256,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2;
(6)组成文字识别网络:
在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络;
(7)构建文字定位数据集:
(7a)随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集,将图片数据集中所有的图片的大小缩放为720x1080;
(7b)在每张图片中标注文字区域顶点的坐标,将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集;
(7c)将图片数据集和图片标签数据集组成文字定位数据集;
(8)构建文字识别数据集:
(8a)随机获取至少三百万张图片,每张图片含有一行文字10个字符,将所有的图片组成文本数据集;将文本数据集中所有的图片的大小缩放为32x280;
(8b)对每张图片中的10个字符分别标注字符类别,将每张图片标注后的字符类别对应的值,组成字符标签数据集;
(8c)将文本数据集和字符标签数据集组成文字识别数据集;
(9)训练文字定位网络:
(9a)将文字定位数据集按9:1的比例随机分为文字定位训练集和文字定位测试集;
(9b)将文字定位训练集输入到文字定位网络中,用梯度下降法,更新文字定位网络的权值10000至50000次,得到训练好的文字定位网络;
(10)训练文字识别网络:
(10a)将文字识别数据集按99:1的比例随机分为文字识别训练集和文字识别测试集;
(10b)将文字识别训练集输入到文字识别网络中,用梯度下降法,更新文字识别网络的权值100000至300000次,得到训练好的文字识别网络;
(11)识别证件图像中的文字:
(11a)将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中,输出证件图片中文字区域的顶点坐标值;
(11b)根据文本区域的顶点坐标值,将文本区域从证件图像中切割出来;
(11c)将切割好的文本区域图片输入到训练好的文字识别网络中,输出文本区域的每一个字符类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910630252.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生猪爬跨行为检测方法及系统
- 下一篇:一种多算法融合的人脸识别方法