[发明专利]一种基于上下边界提取的自然场景下文字检测方法在审
申请号: | 202110265373.1 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112861860A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 路通;钟虎门;杨志博;王永攀 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/46;G06N3/04;G06N3/08;G06T7/11 |
代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 王雪 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下 边界 提取 自然 场景 文字 检测 方法 | ||
1.一种基于上下边界提取的自然场景下文字检测方法,其特征在于,包括如下步骤:
步骤1,通过卷积神经网络模型提取输入图像的特征图,并通过多尺度特征金字塔模型对特征图进行增强;
步骤2,通过语义分割模型预测文字的整体区域、中心区域、上边界区域以及下边界区域;
步骤3,通过广度优先搜索将中心区域逐步扩展至整体区域,同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线;
步骤4,组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果。
2.根据权利要求1所基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤1包括:
步骤1-1,获取自然场景图像,对采样到的自然场景图像进行随机数据增强以扩充数据集的多样性;
步骤1-2,输入图像,根据数据集提供的文字标注框,生成梯度回传掩码M,M中需要进行梯度回传的部分用1填充,不需要梯度回传的部分用0填充;
步骤1-3,对数据增强后的输入图像像素值分通道进行标准化:
其中,input(i,j)表示输入图像坐标为(i,j)的像素值,mean表示某一通道内的输入图像像素均值,std表示某一通道内的输入图像像素标准差;
步骤1-4,使用基于残差块的卷积神经网络提取输入图像的特征图;
步骤1-5,通过多尺度特征金字塔模型对特征图进行融合,通过特征金字塔在提取的图像特征图的基础上生成多个分辨率的特征图,再将所有多个分辨率的特征图通过resize操作放缩至最大特征图的分辨率后将它们在通道维度拼接在一起,输出大小为的融合特征图;其中H为原图高,W为原图宽,batchsize为训练时一次输入卷积神经网络中的图像数量;其中原图指输入图像。
3.根据权利要求2所述基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤1-4中的卷积神经网络是基于残差块建立的,残差块包含一个残差映射和一个恒等映射,残差块的输出即为两者的和,定义为:
y=F(x,{Wi})+x,
x和y分别表示残差块的输入向量和输出向量,F(x,{Wi})就是深度神经网络的网络层要学习的残差映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110265373.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于卫星的供电系统及卫星
- 下一篇:一种改性塑料的制备方法