[发明专利]一种复杂环境下多层级多尺度融合的文字检测方法有效
申请号: | 201910781042.6 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110516669B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 袁媛;王琦;刘琛 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/24;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 康进兴 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种复杂环境下多层级多尺度融合的文字检测方法,可以有效解决复杂背景环境下(多变光照、多变对比度等)的文本定位与检测问题,训练速度快,检测精度率高,达到了77%以上。针对各类自然场景下的包含多种形状与多种尺度文本的图片,该方法具有高效、精准、简单等特点。 | ||
搜索关键词: | 一种 复杂 环境 多层 尺度 融合 文字 检测 方法 | ||
【主权项】:
1.一种复杂环境下多层级多尺度融合的文字检测方法,其特征在于,包括以下步骤:/n步骤一:训练阶段,包括以下子步骤:/n子步骤一:将有标签的训练图片通过旋转、翻转、改变明暗三种方式的组合进行图像数据扩充,抽取全部数据的30%进行上述三种操作,得到扩充图像数据。将其合并入原始图像数据形成新的扩大图像数据集用于后续操作;/n子步骤二:对于子步骤一中获得的扩大图像数据集样本图像,将其输入ResNetXt-101网络;分别抽取ResNetXt-101网络的“conv1”、“conv2_1”、“conv3_1”、“conv3_4”、“conv4_3”、“conv4_12”、“conv4_20”、“conv5_3”这8个层的输出特征,这些特征就是不同尺度的深度特征;/n子步骤三:本步骤的目的是融合子步骤二中获得的8个不同尺度的深度特征。首先将8个不同尺度的深度特征分别通过8个由卷积核大小为1x1的卷积层、Batch Normalization层(批标准化层)和ReLU层(线性整流激活函数层)级联构成的变换模块,得到8个不同尺度的变换特征;再分别对8个不同尺度的变换特征分别进行Bilinear Upsampling(双线性上采样)操作,使其尺度统一到最大的变换特征的尺度;最后将这8个尺度统一的变换特征按通道数堆叠成为一个多尺度融合特征;/n子步骤四:将子步骤三得到的多尺度融合特征经过k个解码网络,获得多层级多尺度特征:每个解码网络由完全对称的n个卷积层与n个反卷积层构成,经过解码网络后得到的特征尺寸大小和原来的大小一样,因而可以和多尺度特征级联。将级联后的特征送入下一个解码网络。每一个解码网络可以得到n个尺度的、共计2n个特征,将这些k个解码网络输出的共计2nk个特征按照尺度合并,相同尺度的特征按通道进行合并级联,可以得到n个不同层级合并后的不同尺度的特征,即n个不同尺度的多层级特征。/n子步骤五:引入CBAM(卷积块注意模块)模型,对于子步骤四中获得的n个多层级特征,使它们分别经过CBAM模块,获得n个不同尺度的多层级融合特征,将这n个不同尺度的多层级特征进行上采样并按通道级联成为一个多尺度多层级特征。/n子步骤六:将上述多尺度多层级特征送入回归预测网络;回归预测网络由一个卷积核大小为1x1的卷积层和一个全连接层组成,将经过子步骤五得到的多尺度多层级特征送入回归预测网络输出一个1×1×5h的特征。它代表着预测的h个结果。每个预测结果包括5个属性(检测框左上角点和右下角点的坐标值以及预测分数),最后根据预测分数的大小筛选出分数最大的作为预测的结果。/n子步骤七:使用GIoU目标函数优化上述目标,利用随机梯度下降法优化目标函数,不断更新上述各个网络层的参数,迭代优化,将使得结果趋于稳定的一组模型参数保存下来;/n步骤二:检测阶段,包括以下子步骤:/n子步骤一:每次检测文本图片时,读取训练阶段得到的模型参数应用于各个网络层并固定,将待测文本图片重复步骤一中的子步骤二至六,获得h个预测输出,输出包括坐标位置和预测分数;/n子步骤二:选取预测分数最大的回归框坐标,即为文本坐标位置。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910781042.6/,转载请声明来源钻瓜专利网。