[发明专利]一种基于深度学习的文本识别方法、设备及存储介质在审
申请号: | 202111244912.X | 申请日: | 2021-10-25 |
公开(公告)号: | CN113971809A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 武小亮;张铁监;汪洋;叶剑 | 申请(专利权)人: | 多伦科技股份有限公司 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/146;G06V30/166;G06V30/19;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 徐莹 |
地址: | 211112 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 识别 方法 设备 存储 介质 | ||
1.一种基于深度学习的文本识别方法,其特征在于,包括以下步骤:
步骤1、按照指定的格式进行数据集的制作;
步骤2、构建文本检测网络模型和损失函数;
步骤3、利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练,得到训练后的文本检测网络模型;
步骤4、获取某一场景的图片;
步骤5、利用开源的图像操作库对获取的图片进行固定尺寸缩放、归一化处理;
步骤6、利用训练后的文本检测网络模型对步骤5处理后的图片进行推理预测,提取得到图片中的文本区域;
步骤7、利用贝塞尔曲线对步骤6所提取的图片中的文本区域进行矫正,得到矫正后的文本区域;
步骤8、对矫正后的文本区域的图片进行预处理,再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信息。
2.根据权利要求1所述的基于深度学习的文本识别方法,其特征在于,所述步骤1按照指定的格式进行数据集的制作,具体包括:
步骤1-1、对某一场景的图片数据进行收集;
步骤1-2、对上述收集到的图片数据进行数据标注,分别标注出图片中每个文本框的四个顶点,且四个顶点以顺时针为顺序,每个图片得到一个或者多个标注的文本框;
步骤1-3、根据得到的图片的文本框,按照PASCAL VOC的数据格式制作数据集。
3.根据权利要求1所述的基于深度学习的文本识别方法,其特征在于,所述步骤2构建基于MobileNeXt网络的文本检测网络模型,具体包括:
输入一张图片,利用MobileNeXt网络对图片进行特征提取,特征提取的过程中进行五次下采样,每次下采样输出一种尺度的特征图,每个特征图的宽和高都是上一层特征图宽和高的1/2,最后一层的特征图是原始图片的1/32;
将MobileNeXt网络输出的最后一层特征图经过金字塔场景解析模块的操作形成的特征图经过上采样后得到的特征图与第四层特征图进行特征合并得到合并后的特征图,以此类推进行合并,直到合并得到的特征图大小是原始图片的1/4;然后对合并得到的大小是原始图片1/4的特征图进行三次下采样,分别保存每层的特征图,再使用金字塔场景解析模块对特征提取的最后一层特征图进行聚合,最后分别把每层的特征图进行合并,输出数量为6且大小为原始图片1/4的特征图。
4.根据权利要求1所述的基于深度学习的文本识别方法,其特征在于,所述步骤2构建的损失函数,具体为:
其中,D为dice coefficient的计算函数;Si为第i个预测区域的集合,Gi为第i个真实区域的集合,Si,x,y为第i个预测区域中像素点(x,y)的值,Gi,x,y为第i个真实区域中像素点(x,y)的值;
以及,定义Lc为文本区域分类损失,Ls为收缩文本区域损失,计算方式如下:
Lc=1-D(Sn*M,Gn*M)
其中,M为训练过程中真实区域的mask,Sn为预测区域中像素点的集合,Gn为真实区域中像素点的集合;W为Sn中单个文本区域的mask,Sn,x,y代表Sn中(x,y)的像素值。
5.根据权利要求1所述的基于深度学习的文本识别方法,其特征在于,所述步骤3中采用随机梯度下降算法对所构建的文本检测网络模型和损失函数进行优化训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于多伦科技股份有限公司,未经多伦科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111244912.X/1.html,转载请声明来源钻瓜专利网。