[发明专利]一种基于语义分割的自然场景文本检测方法在审
申请号: | 202111157377.4 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113888505A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 张立和;隋国际 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/11;G06T7/13;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分割 自然 场景 文本 检测 方法 | ||
1.一种基于语义分割的自然场景文本检测方法,其特征如下:
(1)构建基础特征提取网络
特征提取网络采用ResNet或MobileNet网络结构作为骨干,分别从不同层提取输入图像尺寸的1/4、1/8、1/16、1/32特征作为输出,且输出特征对应的通道数分别为64、128、256、512通道;
(2)构建特征筛选模块
特征筛选模块输入为i和h两部分,i表示特征提取网络的输出特征,h表示上一级特征筛选模块的输出特征,对这两部分进行卷积融合后使用sigmoid函数归一化,将归一化结果作为权重再对i和h两个输入进行选择融合,最后得出融合后的输出特征;整个运算过程定义如下:
S=sigmoid(conv3(conv1(h),conv2(i)))
out=conv4((1-S)·h+S·i)
其中,S表示归一化的特征筛选热图;conv(x)表示一系列自网络结构,由卷积、批归一化、ReLu激活函数组成;out代表最终的输出特征图,固定为64通道;上述运算过程中还隐含着通道变换的步骤;
(3)构建特征金字塔网络
特征金字塔网络是对特征筛选模块的输出进行融合;特征金字塔网络中共有3处用到了特征筛选模块,但是该特征筛选模块的网络结构只有一个,即1个模块3处复用;首先,将特征提取网络输出的1/32尺寸特征图使用金字塔池化网络进行特征扩展,得到1/32尺寸特征图res4;将res4进行上采样变为1/16尺寸,再将它和特征提取网络输出的1/16尺寸特征图分别作为特征筛选模块的h和i两个输入,此时特征筛选模块输出1/16尺寸特征图res3;重复上述步骤得到res2和res1,尺寸分别为1/8、1/4;最后将res2、res3、res4上采样至res1的尺寸,然后进行通道上的级联,得出通道数为256的多尺度融合特征图;
(4)构建边缘强化网络
边缘强化网络由3层神经网络组成,其中前两层神经网络都是由卷积、批归一化、ReLu激活函数组成,最后一层神经网络由卷积、偏置、sigmoid激活函数组成;最后得出通道数为1的边缘强化热图,其中像素点取值范围为[0,1],数值越大表示越靠近边缘位置;
(5)构建语义分割网络
首先,将特征金字塔网络输出的256通道特征图和边缘强化网络输出的1通道特征图在通道上进行级联,再将结果输入到3层卷积神经网络,前2层网络结构都是由上采样、卷积、批归一化、ReLu激活函数组成,其中上采样运算采用双线性插值方法将特征图尺寸扩大为原来的2倍;最后一层网络采用卷积、偏置、sigmoid激活函数,得到1通道的语义分割热图,其中值的范围在0和1之间;通过设定0.7为阈值,将上述热图转化为只有0和1两个值的二值化图;
(6)轮廓成型
采用OpenCV软件先从二值化图中分离出不同文本区域,再对每个区域求出包含该区域的周长最小的闭合多边形,则该多边形的顶点坐标就是该文本区域在图像中的位置坐标;对于矩形文字区域,其坐标由4个点组成;对于其他不规则文本区域,OpenCV软件自行确定多边形顶点个数;
(7)训练方法
使用ResNet50作为骨干网络,先将其在图像分类数据集ImageNet上进行预训练,并保存预训练网络权重参数;然后整个网络在人工合成数据集SynthText上进行预训练,使模型对该任务场景达到收敛;最后在特定场景数据集下进行最后正式训练;此外,在损失函数的设计中使用了OHEM算法,进行正负样本平衡,平衡前景和背景之间的面积差距;网络优化器采用了Adam,批大小设为8,使用指数衰减的学习率曲线,初始学习率设为0.0001,并在每1万次迭代后将学习率减小为原来的0.95,共进行10万次迭代。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111157377.4/1.html,转载请声明来源钻瓜专利网。