[发明专利]一种基于深度学习的自然场景下文本检测方法在审

专利信息
申请号: 202010955696.9 申请日: 2020-09-11
公开(公告)号: CN112070174A 公开(公告)日: 2020-12-11
发明(设计)人: 刘晋;王恒阳 申请(专利权)人: 上海海事大学
主分类号: G06K9/62 分类号: G06K9/62;G06K9/34;G06N3/04
代理公司: 上海互顺专利代理事务所(普通合伙) 31332 代理人: 成秋丽
地址: 201306 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 自然 场景 文本 检测 方法
【权利要求书】:

1.一种基于深度学习的自然场景文本检测方法,其特征在于,具体包括以下步骤:

步骤1:采用标准数据集ICDAR2013,ICDAR2015,以及MSRA-TD500共M张图片作为文本图像数据集,其中M为5000到10000张;并将数据集总数M的70%共m1张图片作为训练集,M的20%共m2张图片作为验证集,M的10%共m3张图片作为测试集;

步骤2:对待检测的图像进行灰度化、归一化预处理;

步骤2.1:灰度化采用加权平均法,根据重要性及其它指标,将RGB图像的三个分量以不同的权值进行加权平均,公式如下:

Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j);

步骤2.2:图像归一化就是对图像最大最小值归一化的方法,公式如下:

其中xi表示图像像素点值;

步骤3:构建特征提取网络,特征提取网络以VGG-16为基础,并且每一层卷积都融合了起始模块;起始模块将普通卷积网络中原有的5×5的大卷积核拆解成较小1×1和3×3的卷积核并串联;并将步骤2预处理后的图片送入特征提取网络;

步骤3.1:构建起始模块的损失函数:ReLU(x)=max(0,x);

步骤4:经过特征提取后,再利用字符区域识别网络CRAFT定位出图像中的单个字符;

步骤4.1:构建字符区域识别网络的目标Loss函数,如下:

其中,p表示区域在字符边界框内的像素,表示生成标注的区域分数,表示连接分数,Sr(p)和Sa(p)分别表示字符区域检测网络中预测出来的区域分数和连接分数;

步骤4.2:计算表p像素的置信分数Sc,与p点的置信度有关,其公式可以表示为:

其中,R(w)表示文本框区域。

步骤5:构建胶囊判别网络;将步骤4中定位到的单个字符送入胶囊判别网络进行判别是否为正确的字符;

步骤5.1:胶囊判别网络编码器第一层卷积层输入为28*28的图像,输出为一个维度20*20*256的张量,其中有256个步长为1的9*9*1的卷积核,使用ReLu分段线性激活函数;

步骤5.2:第二层输入维度20*20*256的张量,输出维度6*6*8*32的张量;

步骤5.3:第三层输入维度6*6*8*32的张量,输出为16*2的矩阵;

步骤5.4:构建胶囊的损失函数:

Lc=Tc max(0,m+-||vc||)2+λ(1-Tc)max(0,||vc||-m-)2

步骤6:构建一种基于多特征图融合与空洞卷积的字符拼接方法,将步骤5中的单个字符拼接成文本行;

步骤6.1:首先构建基于BLSTM与RPN的字符连接信息特征图生成模块,接收步骤5中筛选出的单个字符,生成字符之间的连接信息特征图;整个RPN网络的loss函数为:

步骤6.2:构建基于空洞卷积的多特征图融合模块,将步骤6.1中的字符之间的连接信息特征图进行融合;将不同采样率的空洞卷积得到的特征图合并的公式为:

步骤6.3:构建文本行线性拼接模块,将单个字符拼接成文本行;拼接text line方法采用字符中心点连线思想的分段线性方法;分段线性方法的文本线表示为一组中心线和一个高度值h,li=(ai,bi,ci)代表为aix+biy+ci=0的直线;用k=min(n,11)个近邻坐标点估计中心线,其中n=N为字符个数,高度h为其中P为所有字符的顶点坐标,d(p,li)为p到直线li的距离。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010955696.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top